第五章 统计分布的数据特征 第一节 平均指标(分布的集中趋势)
一、平均指标的概念和作用;二、算术平均数;三、调和平均数;四、几何平均数;五、众数; 六、中位数;七、各种平均数之间的相互关系。 一、 平均指标的概念和作用 ㈠ 概念:平均指标是反映同质总体各单位某一标志值在一定时间、地点条件下的一般水平的代表值。
㈡ 特点: ⒈ 平均指标抽象了各单位标志值的差异,是一个代表值 ⒉ 必须是同质总体
⒊ 反映总体各单位标志值分布的集中趋势 ㈢ 作用: ⒈概括说明总体的数量特征
⒉对比同类现象在不同条件下的差异
⒊对比某现象在不同时间的发展变化情况,说明现象的发展趋势与规律 ⒋分析现象间的依存关系 ⒌进行估计推断
㈣ 分类
算术平均数、调和平均数、几何平均数(数值平均数(均值)) 众数、中位数(位置平均数)
数值平均数和位置平均数的说明:算术平均数、调和平均数和几何平均数是根据总体单位的各个标志值计算的,众数和中位数是根据标志值在分配数列中的位置确定的。
前者为数值平均数,后者为位置平均数
二、算术平均数
总体标志总量
算术平均数=
总体单位总量
算术平均数和强度相对数的区别:算术平均数是在一个总体内标志总量和单位总量的比例关系。分子、分母有一一对应的关系(有一个总体单位必须有一个标志值与之对应)。
强度相对数的分子和分母是两个不同总体的的总量指标,不存
在各个标志值和各单位之间的一一对应关系。 ㈡ 计算方法
掌握的资料不同,有两种计算方法: ⒈ 简单算术平均数:
主要适用于没有分组的原始数据或在变量数列中,各组次数都相等的情况。 ∑x =∑x +x ... +x
=
n n
这里 x 为标志值,又称变量值
例1:5名工人日产零件数为12,13,14,14,15件,计算平均每人日产量。 x x +x ... +x 12+13+14+14+15∑ ====13. 6(件)
n n 5
简单算术平均数可以直接按计算器求。
⒉ 加权算术平均数:分组且各组标志值出现的次数(权数 f )不相等时,用此公式 ∑xf =x 1f 1+x 2f 2+... +x n f n
=
f 1+f 2+... +f n
∑f
这里x 为标志值,又称变量值;f 为各组标志值出现的次数
1
2
n
1
2
n
例1:某企业工人生产情况如下表:
=∑xf ∑f
=20⨯1+21⨯4+22⨯6+23⨯8+24⨯12+25⨯10+26⨯7+27⨯2 1+4+6+8+12+10+7+2
=23. 88(件)
用统计功能的计算器计算:
ON ,2ndF,ON, →20, ⨯ ,1,M+;21, ⨯,4,M+;22, ⨯,6,M+; 23, ⨯,8,M+;24, ⨯,12,M+;25, ⨯10,M+;26, ⨯,7,M+;27, ⨯2,M+ ;x →M →→ˉx
结果为23.88
例2:某厂资料如下,
=
∑xf ∑f
=
98230500
=196. 46(元)
即500
影响算术平均数的因素:
分析:
(1、各组标志值的大小)、(2、各组标志值出现的次数) 权数:指变量数列中各组标志值出现的次数。 权数的形式:
绝对权数:表现为次数、频数、单位数;即公式x =相对权数:表现为频率、比重;即公式x =
∑xf /∑
∑
x
f 中的f f
∑xf /∑f =
∑
f
中的
f
∑
f
作用:对算术平均数起到权衡轻重的作用
A. 权数扩大、缩小相同的倍数,算术平均数的大小不变
B. 对算术平均数起权衡轻重作用的是相对数权数,不是绝对数权数
x 1
xf ∑=
∑f xf ∑=
∑f
1
=[**************]0
=272. 5
122
x 2
==272. 5
⒊ 简单算术平均数与加权算术平均数的关系说明:分了组,但各组标志值出现的次数(权数 f )均为1或都相等时,即f 1=f2=...=f n =A时,也可以用简单算术平均的公式计算。 x 1=
x 1f 1+x 2f 2+... +x n f n
f 1+f 2+... +f n
=
∑xA
nA
=
∑x
n
总结:简单算术平均数是加权算术平均数的一个特例。当各组权数均相等时,加权算术平均数等于简单算术平均数。 三、调和平均数
定义:是对变量值的倒数求得的平均数,又称倒数平均数。
调和平均数是算术平均数的变形,在算术平均数的计算过程中,如果已知各组标志总量,缺少分母的资料时采用调和平均数形式计算;如果已知总体单位总量,缺少分子的资料时采用加权算术平均数形式计算。 ㈠简单调和平均数
例1:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤,求平均价格。 解:x =
∑
x
n 3
例2:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元,求平均价格。
解:先求早、中、晚购买的斤数。早 1/0.5=2(斤)、中 1/0.4=2.5(斤)、晚 1/0.25=4(斤) 1+1+13
H ===0. 35(元) 1118. 5 ++
0. 50. 40. 25
n
用公式表示为:H = 这就是简单调和平均数的公式。
1
=
0. 5+0. 4+0. 25
=0. 38(元)
∑
x
㈡加权调和平均数
例3:某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元,求平均价格。 2+3+49
===0. 33(元)
23427. 5 ++
0. 50. 40. 25
m ∑用公式表示为:H = m
H
∑
x
调和平均数和算术平均数在特定的条件下存在着变形关系:设M=xf,则:f=M/x
H =
∑M ∑
M x
=
∑xf ∑f
三、几何平均数
1、定义:几何平均数是n 个变量值连乘积的n 次方根。
2、计算:由于所掌握的资料不同,分为简单几何平均数和加权几何平均数
㈠简单几何平均数:未分组的原始数据,或分组后各变量值出现的次数均相等。 X G =
n
X 1*X 2*... *X n
例:1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%,计算这5年的平均发展速度。 =X 1⋅X 2⋅... ⋅X n
X G
=5. 076⨯1. 025⨯1. 006⨯1. 027⨯1. 022
=1. 031=103. 1%
按计算器:1.076, ⨯,1.025, ⨯,1.006, ⨯,1.027, ⨯,1.022,=,2ndF,x y , 5,= 出现结果:1.0309即103.1% ㈡加权几何平均数:分组且各组变量值出现的次数(权数)不相等
f
X =∑x 1f ⋅x 2f ⋅... ⋅x n f
G
例:某地区25年的年经济增长速度分别是:1年3%,4年5%,8年8%,10年10%,2年15%, 求该地区经济的平均年增长速度。 ∑f f ⋅f ⋅... ⋅f
x 11x 22x n n X G =
=. 03⨯1. 054⨯1. 088⨯1. 110⨯1. 152
=1. 086=108. 6%
1
2
n
1.03, ⨯,(,1.05,yx,4,),⨯,(,1.08,yx,8,), ⨯,(,1.1,yx,10,),⨯,(,1.15,yx,2,), =,2ndF,
y , 25,=
出现结果:1.086即108.6%
(三)使用几何平均法应注意问题
第一、变量值要是相对数,且不能为负值或零
第二、这些相对数的连乘积要等于总速度或总比率。
总结:几何平均法是计算平均速度或平均比率最适用的一种方法,凡变量值的连乘积等于总速度或总比率,求其平均速度和平均比率时,均可用几何平均法。
举例:某厂有四个流水连续作业车间,某月的合格率分别为:0.95,0.92,0.90,0.80,求四个车间的平均合格率。 计算:
n x x x .... x =0. 95⨯0. 92⨯0. 90⨯0. 80
123n
=0. 9043=90. 43%
为什么说几何平均数是一种特殊的均值?因为:
n
X G =
x 1⨯x 2⨯ ⨯x n =
∏x
i =1
i
n
可写成:lg X G =
1n
∑lg
(lgx 1+lg x 2+ +lg x n ) =
i =1
x i
n
四、众数
1、定义: 是一个统计总体或分布数列中出现次数最多的变量值。 2、计算:众数可以根据品质数列计算,也可以根据变量数列计算 例如变量数列中的单项式数列:
价格(元) 销售量(公斤) 2.00 20 2.40 60 3.00 140 4.00 80 众数为:3.00元
例如品质数列:为研究广告市场的状况,一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查,其中一个问题是:您比较关心下列那一类广告? 广告类型 人数(频数) 频率(%) 商品广告 112 56.0 服务广告 51 25.5 金融广告 9 4.5
房地产广告 16 8.0 招生招聘广告 10 5.0 其他广告 2 1.0 这里,众数即为商品广告
(2)对于变量数列中的组距式数列:先确定众数所在的组,然后用公式计算。 公式分上限公式和下限公式。
∆1f m -f m -1
下限公式: M 0=L +d =L +d
(f m -f m -1)+(f m -f m +1)∆1+∆2
f m -f m +1
上限公式: M =U -∆2d =U -d 0
(f m -f m -1)+(f m -f m +1)∆1+∆2
注:上述公式通常只适用于等距的变量数列,或者至少变量数列中间频数最多的几个组应该是等距的。
其中:L 为众数所在组的下限;U 为众数所在组的上限
f m 为众数所在组的次数; ∆1=f m -f m -1f m-1为众数所在组的前一组的次数
∆2=f m -f m +1f m+1为众数所在组的后一组的次数
例:分数 x 人数 f
60以下 2 60~70 7
70~80 15 80~90 10 90以上 6 合计 40
∆1∆2
M =L +d M =U -d 00 ∆1+∆2∆1+∆2
f m -f m -1f m -f m +1
=L +d =U -d (f m -f m -1)+(f m -f m +1)(f m -f m -1)+(f m -f m +1)
(15-7) (15-10)
=70+10=80-⨯10 (15-7) +(15-10) (15-7) +(15-10)
=76. 15(分)=76. 15(分)
3、关于众数说明
1)不受极端值的影响
2)既适用于品质数列(定类和定序尺度的数据),也适用于变量数列(定距与定比尺度的 数据)
3)一组数据可能没有众数或有几个众数 无众数
原始数据: 10 5 9 12 6 8 无众数
原始数据: 6 5 9 8 5 5 多于一个众数
原始数据:25 28 28 36 42 42 五、中位数
1、中位数的概念:将各单位标志值按大小排列,居于中间位置的那个标志值。 2、中位数的计算三种情况 第一、未分组原始资料 第二、单项式数列 第三、组距式数列
第一、未分组原始资料:
先将数据按从小到大顺序排列 n +1 (1)如项数为奇数,居于中间位置上的标志值为众数。中间位置为:
2
例:有9个数值:
2、3、5、6、9、10、11、13、14 中位数为第5个,即9。 (2)如项数为偶数, 中位数为中间位置上的2个标志值的平均值。 n n +1 中间位置为 和
22
例:有10个数值
2、3、5、6、9、10、11、13、14、15
中位数为第5个和第6个数据的平均值,即9.5。 第二、单项式数列
先将变量值排序,并将次数进行累计,以确定中位数的位置。 中位数的位置可用近似公式确定: ∑f
举例: 2
中位数位置=80/2=40
按向上累计次数,中位数=34。 按向下累计次数道理相同 第三、组距式数列
分数 人数 向上累计 向下累计 60以下 2 2 40 60~70 7 9 38 70~80 15 24 31 80~90 10 34 16 90以上 6 40 6 合计 40 --- ---
A 、先将次数进行累计
B 、确定中位数所在的组:用本例中为:40/2=20,即中位数应在将分数从高到低排列后的第20个学生的分数上。
C 、计算中位数的近似值: f ∑-S M -1公式:
M e =L +d
f M
下限公式=
上限公式= M
e
∑
=U -
2
f
-S M +1f M
d
其中:L 为中位数所在组的下限;U 为中位数所在组的上限
f M 为众数所在组的次数;
S M-1为中位数所在组以下的累计次数; S M+1为中位数所在组以上的累计次数; ∑f 为总次数;d 为中位数所在组的组距。 带入资料得:
4040 -16-9
M e =80-⨯10=77. 33M e =70-⨯10=77. 33
1515
六、各种平均数之间的关系
1、数值平均数和位置平均数的比较: 1)前者是根据总体内各个标志值计算的,后者是根据总体中某一个特殊位置上的标志值确定的。 2)前者容易受极端值的影响,后者不会。 2、各种数值平均数的比较
1)适用的场合不同。一般说,在计算单位标志平均数时,用算术平均数或调和平均数;在计算动态比率的平均数时,用几何平均数。
2)计算的繁简程度不同。算术平均数的计算过程最简单,其他数值平均数的计算都相对复杂一些。
3)某些数值平均数对变量的取值有特殊的限制。几何平均数要求平均变量不能为负或零,调和平均数则要求不能平均变量不能为零。
第二节 标志变异指标(分布的离散程度)
一、标志变异指标的概念和作用 ㈠标志变异指标的概念
又称标志变动度,是描述总体各单位标志值差别大小程度的指标。 例某车间两个生产小组各人日产量如下: 甲组:20,40,60,70,80,100,120 乙组:67,68,69,70,71,72,73
从可以看出甲组离散程度大,乙组离散程度小。 ㈡标志变异指标的作用
1、是评价平均数代表性的依据。
标志变动度大,平均数的代表性就小;标志变动度小 , 平均数的代表性就大 例如:三组学生的年龄(岁)
20 20 20 20 20 ---差距最小,20岁的代表性最好 18 19 20 21 22
15 16 20 24 25---差距最大,20 岁的代表性最差。
2、能反映社会经济活动过程的均衡性或协调性。
3、能反映总体各单位标志值(变量值)分布的离中趋势 ㈢ 标志变异指标与平均指标的区别
⒈代表的含义不同。二者虽都是代表值,但平均指标代表现象总体的一般趋势,变异指标代表现象的离散水平。
⒉抽象的内容不同。平均指标将标志值之间的差异抽象化,变异指标正是为了反映标志值之间的差异。
⒊反映总体的角度不同。平均指标反映总体分布的集中数量特征,变异指标反映总体分布的离散数量特征。 二、全距
㈠全距的概念: 全距,又称极差,是总体各单位标志的最大值和最小值之差。 R = Xmax-Xmin
例:假设学生外语成绩例中,最低分为48分,最高分为96分,则全距 = 96-48=48(分) 在组距数列中:R ≈最高组上限—最低组下限 ㈡全距的优点和缺点
优点:计算简单、涵义直观
缺点:1、易受极端数值的影响; 2、不能反映中间变量的分布情况 三、平均差
㈠平均差的概念
平均差是各单位标志值与其算术平均数离差绝对值的算术平均数。 (二)计算: 简单式: A . D = ∑x - 加权式: A . D =∑x -f
n ∑f
例:一组学生年龄: 18 19 20 21 22 求平均差。 因为:
A . D =∑x - n
6 ==1. 2(岁)200个工人产量资料(单位公斤) 5
日产量 工人数 30以下 10 30~40 70 40~50 90 50以上 30 合计 200 求A.D
∑xf =8400=42∑x -f =1320=6. 6(公斤)=(公斤)A . D =
200 ∑f 200∑f
(三)平均差的特点:
优点:和全距相比,弥补了全距不足,能反映中间标志值的变动; 缺点:加绝对值符号,数学性不理想 四、标准差(均方差)
㈠概念:是各单位标志值与其算术平均数离差平 方的算术平均数的平方根。又称均方差。 标准差的平方为方差
22(二)计算 ∑(x -)f ∑(x -)
简单式: σ = n 加权式: σ=
∑f
2 2(x -)f 2
()x -σ=∑方差: 2=∑σ
∑f n
简单式举例:例:一组学生年龄: 18 19 20 21 22 x -(x -)2x
18 -2 4
(x -)2 19 -1 1 ∑σ= 20 0 0 n
21 1 1 22 2 4 ==1. 414(岁)
合计 - 10 5例: x -2f 122008400∑∑xf ===42(公斤)σ===7. (公斤)8 200∑f f 200∑ 计算器的使用:开机:ON ,2ndF ,ON
进入到统计功能后,用计算平均数的方法输数据 所有的数据输完后,按 2ndF 键, 再按 σ 键,即为标准差 (三)标准差的优缺点
优点:弥补了平均差和全距的不足
缺点:利用标准差不能比较性质不同的数列(即水平高低不等和计量单位不同)离散程度的大小。
五、离散系数
例一:两组动物体重(单位:公斤) 甲: 2, 3, 4 乙:200,210,220 试比较平均数的代表性。
∑x =3(公斤) ∑x =210平均数为: ==(公斤)
n n
2222
(x -) (2-3) +(3-3) +(3-4) ∑σ===0. 816公斤 甲
n 3
2222
(x -) (200-210) +(210-210) +(220-210) ∑
==8. 16公斤 σ乙=
n 3
因为甲<σ乙. 甲=3公斤的代表性好于. 乙=210公斤的代表性。上述结论不一定正确
因为:数列性质不同(水平高低不等或者计量单位不同),不能直接用标准差(或平均差)来比较平均数的代表。
这种情况下,要比较平均数的代表性的大小(即数列的离散程度),必须用相对离散程度指标 — 离散系数。
离散系数又称变异系数,是一类相对数形式的变异指标。它是将前面提到的各种变异指标与其平均指标对比的结果。
有全距系数、平均差系数、标准差系数等等
用来对比不同水平的同类现象,特别是不同类现象总体平均数代表性的大小:标准差系数小的总体,其平均数的代表性大;反之,亦然。 对于例一
σ甲 σ0. 8168. 16V 甲==⨯100%=27. 2%V 乙=乙=⨯100%=3. 89% 3X 甲210X 乙 因为v >v
乙甲
所以甲=3公斤代表性小于乙=210公斤。
甲
乙
总结:比较两组数据的离散程度(即比较平均数的代表性)时:
如果两组平均数相等且计量单位相同时,可直接使用标准差比较;
如果两组平均数不等,或虽然平均数相等但计量单位不同时,则需使用离散系数比较。 离散系数主要用于比较性质不同总体数据的离散程度。