第五章 统计分布的数据特征 - 范文中心

第五章 统计分布的数据特征

07/05

第五章 统计分布的数据特征 第一节 平均指标(分布的集中趋势)

一、平均指标的概念和作用;二、算术平均数;三、调和平均数;四、几何平均数;五、众数; 六、中位数;七、各种平均数之间的相互关系。 一、 平均指标的概念和作用 ㈠ 概念:平均指标是反映同质总体各单位某一标志值在一定时间、地点条件下的一般水平的代表值。

㈡ 特点: ⒈ 平均指标抽象了各单位标志值的差异,是一个代表值 ⒉ 必须是同质总体

⒊ 反映总体各单位标志值分布的集中趋势 ㈢ 作用: ⒈概括说明总体的数量特征

⒉对比同类现象在不同条件下的差异

⒊对比某现象在不同时间的发展变化情况,说明现象的发展趋势与规律 ⒋分析现象间的依存关系 ⒌进行估计推断

㈣ 分类

算术平均数、调和平均数、几何平均数(数值平均数(均值)) 众数、中位数(位置平均数)

数值平均数和位置平均数的说明:算术平均数、调和平均数和几何平均数是根据总体单位的各个标志值计算的,众数和中位数是根据标志值在分配数列中的位置确定的。

前者为数值平均数,后者为位置平均数

二、算术平均数

总体标志总量

算术平均数=

总体单位总量

算术平均数和强度相对数的区别:算术平均数是在一个总体内标志总量和单位总量的比例关系。分子、分母有一一对应的关系(有一个总体单位必须有一个标志值与之对应)。

强度相对数的分子和分母是两个不同总体的的总量指标,不存

在各个标志值和各单位之间的一一对应关系。 ㈡ 计算方法

掌握的资料不同,有两种计算方法: ⒈ 简单算术平均数:

主要适用于没有分组的原始数据或在变量数列中,各组次数都相等的情况。 ∑x =∑x +x ... +x

=

n n

这里 x 为标志值,又称变量值

例1:5名工人日产零件数为12,13,14,14,15件,计算平均每人日产量。 x x +x ... +x 12+13+14+14+15∑ ====13. 6(件)

n n 5

简单算术平均数可以直接按计算器求。

⒉ 加权算术平均数:分组且各组标志值出现的次数(权数 f )不相等时,用此公式 ∑xf =x 1f 1+x 2f 2+... +x n f n

=

f 1+f 2+... +f n

∑f

这里x 为标志值,又称变量值;f 为各组标志值出现的次数

1

2

n

1

2

n

例1:某企业工人生产情况如下表:

=∑xf ∑f

=20⨯1+21⨯4+22⨯6+23⨯8+24⨯12+25⨯10+26⨯7+27⨯2 1+4+6+8+12+10+7+2

=23. 88(件)

用统计功能的计算器计算:

ON ,2ndF,ON, →20, ⨯ ,1,M+;21, ⨯,4,M+;22, ⨯,6,M+; 23, ⨯,8,M+;24, ⨯,12,M+;25, ⨯10,M+;26, ⨯,7,M+;27, ⨯2,M+ ;x →M →→ˉx

结果为23.88

例2:某厂资料如下,

=

∑xf ∑f

=

98230500

=196. 46(元)

即500

影响算术平均数的因素:

分析:

(1、各组标志值的大小)、(2、各组标志值出现的次数) 权数:指变量数列中各组标志值出现的次数。 权数的形式:

绝对权数:表现为次数、频数、单位数;即公式x =相对权数:表现为频率、比重;即公式x =

∑xf /∑

x

f 中的f f

∑xf /∑f =

f

中的

f

f

作用:对算术平均数起到权衡轻重的作用

A. 权数扩大、缩小相同的倍数,算术平均数的大小不变

B. 对算术平均数起权衡轻重作用的是相对数权数,不是绝对数权数

x 1

xf ∑=

∑f xf ∑=

∑f

1

=[**************]0

=272. 5

122

x 2

==272. 5

⒊ 简单算术平均数与加权算术平均数的关系说明:分了组,但各组标志值出现的次数(权数 f )均为1或都相等时,即f 1=f2=...=f n =A时,也可以用简单算术平均的公式计算。 x 1=

x 1f 1+x 2f 2+... +x n f n

f 1+f 2+... +f n

=

∑xA

nA

=

∑x

n

总结:简单算术平均数是加权算术平均数的一个特例。当各组权数均相等时,加权算术平均数等于简单算术平均数。 三、调和平均数

定义:是对变量值的倒数求得的平均数,又称倒数平均数。

调和平均数是算术平均数的变形,在算术平均数的计算过程中,如果已知各组标志总量,缺少分母的资料时采用调和平均数形式计算;如果已知总体单位总量,缺少分子的资料时采用加权算术平均数形式计算。 ㈠简单调和平均数

例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。 解:x =

x

n 3

例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。

解:先求早、中、晚购买的斤数。早 1/0.5=2(斤)、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤) 1+1+13

H ===0. 35(元) 1118. 5 ++

0. 50. 40. 25

n

用公式表示为:H = 这就是简单调和平均数的公式。

1

=

0. 5+0. 4+0. 25

=0. 38(元)

x

㈡加权调和平均数

例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。 2+3+49

===0. 33(元)

23427. 5 ++

0. 50. 40. 25

m ∑用公式表示为:H = m

H

x

调和平均数和算术平均数在特定的条件下存在着变形关系:设M=xf,则:f=M/x

H =

∑M ∑

M x

=

∑xf ∑f

三、几何平均数

1、定义:几何平均数是n 个变量值连乘积的n 次方根。

2、计算:由于所掌握的资料不同,分为简单几何平均数和加权几何平均数

㈠简单几何平均数:未分组的原始数据,或分组后各变量值出现的次数均相等。 X G =

n

X 1*X 2*... *X n

例:1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。 =X 1⋅X 2⋅... ⋅X n

X G

=5. 076⨯1. 025⨯1. 006⨯1. 027⨯1. 022

=1. 031=103. 1%

按计算器:1.076, ⨯,1.025, ⨯,1.006, ⨯,1.027, ⨯,1.022,=,2ndF,x y , 5,= 出现结果:1.0309即103.1% ㈡加权几何平均数:分组且各组变量值出现的次数(权数)不相等

f

X =∑x 1f ⋅x 2f ⋅... ⋅x n f

G

例:某地区25年的年经济增长速度分别是:1年3%,4年5%,8年8%,10年10%,2年15%, 求该地区经济的平均年增长速度。 ∑f f ⋅f ⋅... ⋅f

x 11x 22x n n X G =

=. 03⨯1. 054⨯1. 088⨯1. 110⨯1. 152

=1. 086=108. 6%

1

2

n

1.03, ⨯,(,1.05,yx,4,),⨯,(,1.08,yx,8,), ⨯,(,1.1,yx,10,),⨯,(,1.15,yx,2,), =,2ndF,

y , 25,=

出现结果:1.086即108.6%

(三)使用几何平均法应注意问题

第一、变量值要是相对数,且不能为负值或零

第二、这些相对数的连乘积要等于总速度或总比率。

总结:几何平均法是计算平均速度或平均比率最适用的一种方法,凡变量值的连乘积等于总速度或总比率,求其平均速度和平均比率时,均可用几何平均法。

举例:某厂有四个流水连续作业车间,某月的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。 计算:

n x x x .... x =0. 95⨯0. 92⨯0. 90⨯0. 80

123n

=0. 9043=90. 43%

为什么说几何平均数是一种特殊的均值?因为:

n

X G =

x 1⨯x 2⨯ ⨯x n =

∏x

i =1

i

n

可写成:lg X G =

1n

∑lg

(lgx 1+lg x 2+ +lg x n ) =

i =1

x i

n

四、众数

1、定义: 是一个统计总体或分布数列中出现次数最多的变量值。 2、计算:众数可以根据品质数列计算,也可以根据变量数列计算 例如变量数列中的单项式数列:

价格(元) 销售量(公斤) 2.00 20 2.40 60 3.00 140 4.00 80 众数为:3.00元

例如品质数列:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中一个问题是:您比较关心下列那一类广告? 广告类型 人数(频数) 频率(%) 商品广告 112 56.0 服务广告 51 25.5 金融广告 9 4.5

房地产广告 16 8.0 招生招聘广告 10 5.0 其他广告 2 1.0 这里,众数即为商品广告

(2)对于变量数列中的组距式数列:先确定众数所在的组,然后用公式计算。 公式分上限公式和下限公式。

∆1f m -f m -1

下限公式: M 0=L +d =L +d

(f m -f m -1)+(f m -f m +1)∆1+∆2

f m -f m +1

上限公式: M =U -∆2d =U -d 0

(f m -f m -1)+(f m -f m +1)∆1+∆2

注:上述公式通常只适用于等距的变量数列,或者至少变量数列中间频数最多的几个组应该是等距的。

其中:L 为众数所在组的下限;U 为众数所在组的上限

f m 为众数所在组的次数; ∆1=f m -f m -1f m-1为众数所在组的前一组的次数

∆2=f m -f m +1f m+1为众数所在组的后一组的次数

例:分数 x 人数 f

60以下 2 60~70 7

70~80 15 80~90 10 90以上 6 合计 40

∆1∆2

M =L +d M =U -d 00 ∆1+∆2∆1+∆2

f m -f m -1f m -f m +1

=L +d =U -d (f m -f m -1)+(f m -f m +1)(f m -f m -1)+(f m -f m +1)

(15-7) (15-10)

=70+10=80-⨯10 (15-7) +(15-10) (15-7) +(15-10)

=76. 15(分)=76. 15(分)

3、关于众数说明

1)不受极端值的影响

2)既适用于品质数列(定类和定序尺度的数据),也适用于变量数列(定距与定比尺度的 数据)

3)一组数据可能没有众数或有几个众数 无众数

原始数据: 10 5 9 12 6 8 无众数

原始数据: 6 5 9 8 5 5 多于一个众数

原始数据:25 28 28 36 42 42 五、中位数

1、中位数的概念:将各单位标志值按大小排列,居于中间位置的那个标志值。 2、中位数的计算三种情况 第一、未分组原始资料 第二、单项式数列 第三、组距式数列

第一、未分组原始资料:

先将数据按从小到大顺序排列 n +1 (1)如项数为奇数,居于中间位置上的标志值为众数。中间位置为:

2

例:有9个数值:

2、3、5、6、9、10、11、13、14 中位数为第5个,即9。 (2)如项数为偶数, 中位数为中间位置上的2个标志值的平均值。 n n +1 中间位置为 和

22

例:有10个数值

2、3、5、6、9、10、11、13、14、15

中位数为第5个和第6个数据的平均值,即9.5。 第二、单项式数列

先将变量值排序,并将次数进行累计,以确定中位数的位置。 中位数的位置可用近似公式确定: ∑f

举例: 2

中位数位置=80/2=40

按向上累计次数,中位数=34。 按向下累计次数道理相同 第三、组距式数列

分数 人数 向上累计 向下累计 60以下 2 2 40 60~70 7 9 38 70~80 15 24 31 80~90 10 34 16 90以上 6 40 6 合计 40 --- ---

A 、先将次数进行累计

B 、确定中位数所在的组:用本例中为:40/2=20,即中位数应在将分数从高到低排列后的第20个学生的分数上。

C 、计算中位数的近似值: f ∑-S M -1公式:

M e =L +d

f M

下限公式=

上限公式= M

e

=U -

2

f

-S M +1f M

d

其中:L 为中位数所在组的下限;U 为中位数所在组的上限

f M 为众数所在组的次数;

S M-1为中位数所在组以下的累计次数; S M+1为中位数所在组以上的累计次数; ∑f 为总次数;d 为中位数所在组的组距。 带入资料得:

4040 -16-9

M e =80-⨯10=77. 33M e =70-⨯10=77. 33

1515

六、各种平均数之间的关系

1、数值平均数和位置平均数的比较: 1)前者是根据总体内各个标志值计算的,后者是根据总体中某一个特殊位置上的标志值确定的。 2)前者容易受极端值的影响,后者不会。 2、各种数值平均数的比较

1)适用的场合不同。一般说,在计算单位标志平均数时,用算术平均数或调和平均数;在计算动态比率的平均数时,用几何平均数。

2)计算的繁简程度不同。算术平均数的计算过程最简单,其他数值平均数的计算都相对复杂一些。

3)某些数值平均数对变量的取值有特殊的限制。几何平均数要求平均变量不能为负或零,调和平均数则要求不能平均变量不能为零。

第二节 标志变异指标(分布的离散程度)

一、标志变异指标的概念和作用 ㈠标志变异指标的概念

又称标志变动度,是描述总体各单位标志值差别大小程度的指标。 例某车间两个生产小组各人日产量如下: 甲组:20,40,60,70,80,100,120 乙组:67,68,69,70,71,72,73

从可以看出甲组离散程度大,乙组离散程度小。 ㈡标志变异指标的作用

1、是评价平均数代表性的依据。

标志变动度大,平均数的代表性就小;标志变动度小 , 平均数的代表性就大 例如:三组学生的年龄(岁)

20 20 20 20 20 ---差距最小,20岁的代表性最好 18 19 20 21 22

15 16 20 24 25---差距最大,20 岁的代表性最差。

2、能反映社会经济活动过程的均衡性或协调性。

3、能反映总体各单位标志值(变量值)分布的离中趋势 ㈢ 标志变异指标与平均指标的区别

⒈代表的含义不同。二者虽都是代表值,但平均指标代表现象总体的一般趋势,变异指标代表现象的离散水平。

⒉抽象的内容不同。平均指标将标志值之间的差异抽象化,变异指标正是为了反映标志值之间的差异。

⒊反映总体的角度不同。平均指标反映总体分布的集中数量特征,变异指标反映总体分布的离散数量特征。 二、全距

㈠全距的概念: 全距,又称极差,是总体各单位标志的最大值和最小值之差。 R = Xmax-Xmin

例:假设学生外语成绩例中,最低分为48分,最高分为96分,则全距 = 96-48=48(分) 在组距数列中:R ≈最高组上限—最低组下限 ㈡全距的优点和缺点

优点:计算简单、涵义直观

缺点:1、易受极端数值的影响; 2、不能反映中间变量的分布情况 三、平均差

㈠平均差的概念

平均差是各单位标志值与其算术平均数离差绝对值的算术平均数。 (二)计算: 简单式: A . D = ∑x - 加权式: A . D =∑x -f

n ∑f

例:一组学生年龄: 18 19 20 21 22 求平均差。 因为:

A . D =∑x - n

6 ==1. 2(岁)200个工人产量资料(单位公斤) 5

日产量 工人数 30以下 10 30~40 70 40~50 90 50以上 30 合计 200 求A.D

∑xf =8400=42∑x -f =1320=6. 6(公斤)=(公斤)A . D =

200 ∑f 200∑f

(三)平均差的特点:

优点:和全距相比,弥补了全距不足,能反映中间标志值的变动; 缺点:加绝对值符号,数学性不理想 四、标准差(均方差)

㈠概念:是各单位标志值与其算术平均数离差平 方的算术平均数的平方根。又称均方差。 标准差的平方为方差

22(二)计算 ∑(x -)f ∑(x -)

简单式: σ = n 加权式: σ=

∑f

2 2(x -)f 2

()x -σ=∑方差: 2=∑σ

∑f n

简单式举例:例:一组学生年龄: 18 19 20 21 22 x -(x -)2x

18 -2 4

(x -)2 19 -1 1 ∑σ= 20 0 0 n

21 1 1 22 2 4 ==1. 414(岁)

合计 - 10 5例: x -2f 122008400∑∑xf ===42(公斤)σ===7. (公斤)8 200∑f f 200∑ 计算器的使用:开机:ON ,2ndF ,ON

进入到统计功能后,用计算平均数的方法输数据 所有的数据输完后,按 2ndF 键, 再按 σ 键,即为标准差 (三)标准差的优缺点

优点:弥补了平均差和全距的不足

缺点:利用标准差不能比较性质不同的数列(即水平高低不等和计量单位不同)离散程度的大小。

五、离散系数

例一:两组动物体重(单位:公斤) 甲: 2, 3, 4 乙:200,210,220 试比较平均数的代表性。

∑x =3(公斤) ∑x =210平均数为: ==(公斤)

n n

2222

(x -) (2-3) +(3-3) +(3-4) ∑σ===0. 816公斤 甲

n 3

2222

(x -) (200-210) +(210-210) +(220-210) ∑

==8. 16公斤 σ乙=

n 3

因为甲<σ乙. 甲=3公斤的代表性好于. 乙=210公斤的代表性。上述结论不一定正确

因为:数列性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平均差)来比较平均数的代表。

这种情况下,要比较平均数的代表性的大小(即数列的离散程度),必须用相对离散程度指标 — 离散系数。

离散系数又称变异系数,是一类相对数形式的变异指标。它是将前面提到的各种变异指标与其平均指标对比的结果。

有全距系数、平均差系数、标准差系数等等

用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小:标准差系数小的总体,其平均数的代表性大;反之,亦然。 对于例一

σ甲 σ0. 8168. 16V 甲==⨯100%=27. 2%V 乙=乙=⨯100%=3. 89% 3X 甲210X 乙 因为v >v

乙甲

所以甲=3公斤代表性小于乙=210公斤。

总结:比较两组数据的离散程度(即比较平均数的代表性)时:

如果两组平均数相等且计量单位相同时,可直接使用标准差比较;

如果两组平均数不等,或虽然平均数相等但计量单位不同时,则需使用离散系数比较。 离散系数主要用于比较性质不同总体数据的离散程度。


相关内容

  • 中国县域人均粮食占有量的时空格局
    第69卷第12期2014年12月 地理学报 ACTAGEOGRAPHICASINICA Vol.69,No.12December,2014 中国县域人均粮食占有量的时空格局 --基于户籍人口和常住人口的对比分析 李亚婷1,2,潘少奇2,苗长 ...
  • 统计学习题 第四章_数据分布特征的描述习题答案
    第四章 数据分布特征的描述习题 一.填空题 1.数据分布集中趋势的测度值(指标)主要有 众数 . 中位数 和 均值 .其中 众数 和 中位数 用于测度品质数据集中趋势的分布特征, 均值 用于测度数值型数据集中趋势的分布特征. 2.标准差是反 ...
  • spss的数据分析案例
    关于某公司474名职工综合状况的统计分析报告 一. 数据介绍: 本次分析的数据为某公司474名职工状况统计表,其中共包含十一变量,分别是:id (职工编号),gender(性别) ,bdate(出生日期) ,edcu (受教育水平程度),j ...
  • 中国人口分布的密度分级与重心曲线特征分析
    第"卷第2期2009年2月 地理学报 ACTAGEOGRAPHICASINICA V01.64.No.2Feb.,2009 中国人口分布的密度分级与重心曲线特征分析 葛美玲1,2'封志明1 (I.中国科学院地理科学与资源研究所.北 ...
  • 空间统计及计量方法学习笔记
    空间统计及计量方法学习笔记 1. 背景及文献综述 ....................................................... 2 2. 空间效应 ............................. ...
  • 运筹学案例
    <管理运筹学>案例作业 班级:三门峡MBA班 姓名:司久胜 2008年9月1日 案例一:中国股民股票投资状况调查与分析 一.案例简介 为了了解我国广大股民的投资状况,研究我国股民的股票投资特征,培养MBA学员的实地调查能力,并为 ...
  • 七年级数学下册统计复习
    一.统计调查 1. 数据处理的过程 (1).数据处理一般包括收集数据.整理数据.描述数据和分析数据等过程. 收集数据的方法:a .民意调查:如投票选举 b.实地调查:如现场进行观察.收集.统计数据 c.媒体调查:报纸.电视.电话.网络等调查 ...
  • 鲁教版最新初一数学下知识点
    基本平面图形 一.知识点总结 1.线段:绷紧的琴弦,人行横道线都可以近似的看做线段.线段有两个端点. 2.射线:将线段向一个方向无限延长就形成了射线.射线有一个端点. 3.直线:将线段向两个方向无限延长就形成了直线.直线没有端点. n ⨯( ...
  • 土地质量地球化学评估技术要求(发布稿)
    中国地质调查局地质调查技术标准 D D 2008-06 土地质量地球化学评估技术要求 (试行) 中国地质调查局 2008年10月 目 次 前 言 ............................................... ...