第五章统计分布的数据特征

第五章统计分布的数据特征第一节平均指标（分布的集中趋势）

一、平均指标的概念和作用；二、算术平均数；三、调和平均数；四、几何平均数；五、众数；六、中位数；七、各种平均数之间的相互关系。一、平均指标的概念和作用㈠概念：平均指标是反映同质总体各单位某一标志值在一定时间、地点条件下的一般水平的代表值。

㈡特点： ⒈ 平均指标抽象了各单位标志值的差异，是一个代表值 ⒉ 必须是同质总体

⒊ 反映总体各单位标志值分布的集中趋势㈢作用： ⒈概括说明总体的数量特征

⒉对比同类现象在不同条件下的差异

⒊对比某现象在不同时间的发展变化情况，说明现象的发展趋势与规律 ⒋分析现象间的依存关系 ⒌进行估计推断

㈣分类

算术平均数、调和平均数、几何平均数（数值平均数（均值））众数、中位数（位置平均数）

数值平均数和位置平均数的说明：算术平均数、调和平均数和几何平均数是根据总体单位的各个标志值计算的，众数和中位数是根据标志值在分配数列中的位置确定的。

前者为数值平均数，后者为位置平均数

二、算术平均数

总体标志总量

算术平均数=

总体单位总量

算术平均数和强度相对数的区别：算术平均数是在一个总体内标志总量和单位总量的比例关系。分子、分母有一一对应的关系（有一个总体单位必须有一个标志值与之对应）。

强度相对数的分子和分母是两个不同总体的的总量指标，不存

在各个标志值和各单位之间的一一对应关系。㈡计算方法

掌握的资料不同，有两种计算方法： ⒈ 简单算术平均数：

主要适用于没有分组的原始数据或在变量数列中，各组次数都相等的情况。 ∑x =∑x +x ... +x

n n

这里 x 为标志值，又称变量值

例1：5名工人日产零件数为12，13，14，14，15件，计算平均每人日产量。 x x +x ... +x 12+13+14+14+15∑ ====13. 6(件)

n n 5

简单算术平均数可以直接按计算器求。

⒉ 加权算术平均数：分组且各组标志值出现的次数（权数 f ）不相等时，用此公式 ∑xf =x 1f 1+x 2f 2+... +x n f n

f 1+f 2+... +f n

∑f

这里x 为标志值，又称变量值；f 为各组标志值出现的次数

例1：某企业工人生产情况如下表：

=∑xf ∑f

=20⨯1+21⨯4+22⨯6+23⨯8+24⨯12+25⨯10+26⨯7+27⨯2 1+4+6+8+12+10+7+2

=23. 88(件）

用统计功能的计算器计算：

ON ，2ndF,ON, →20, ⨯ ，1，M+；21, ⨯,4,M+；22, ⨯,6,M+； 23, ⨯,8,M+；24, ⨯,12,M+；25, ⨯10,M+；26, ⨯,7,M+；27, ⨯2,M+ ；x →M →→ˉx

结果为23.88

例2：某厂资料如下,

∑xf ∑f

98230500

=196. 46(元)

即500

影响算术平均数的因素：

分析：

（1、各组标志值的大小）、（2、各组标志值出现的次数）权数：指变量数列中各组标志值出现的次数。权数的形式：

绝对权数：表现为次数、频数、单位数；即公式x =相对权数：表现为频率、比重；即公式x =

∑xf /∑

∑

f 中的f f

∑xf /∑f =

∑

中的

∑

作用：对算术平均数起到权衡轻重的作用

A. 权数扩大、缩小相同的倍数，算术平均数的大小不变

B. 对算术平均数起权衡轻重作用的是相对数权数，不是绝对数权数

x 1

xf ∑=

∑f xf ∑=

∑f

=[**************]0

=272. 5

122

x 2

==272. 5

⒊ 简单算术平均数与加权算术平均数的关系说明：分了组，但各组标志值出现的次数（权数 f ）均为1或都相等时，即f 1=f2=...=f n =A时，也可以用简单算术平均的公式计算。 x 1=

x 1f 1+x 2f 2+... +x n f n

f 1+f 2+... +f n

∑xA

∑x

总结：简单算术平均数是加权算术平均数的一个特例。当各组权数均相等时，加权算术平均数等于简单算术平均数。三、调和平均数

定义：是对变量值的倒数求得的平均数，又称倒数平均数。

调和平均数是算术平均数的变形，在算术平均数的计算过程中，如果已知各组标志总量，缺少分母的资料时采用调和平均数形式计算；如果已知总体单位总量，缺少分子的资料时采用加权算术平均数形式计算。㈠简单调和平均数

例1：某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1斤，求平均价格。解：x =

∑

n 3

例2：某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买1元，求平均价格。

解：先求早、中、晚购买的斤数。早 1/0.5=2(斤）、中 1/0.4=2.5(斤）、晚 1/0.25=4(斤） 1+1+13

H ===0. 35(元) 1118. 5 ++

0. 50. 40. 25

用公式表示为：H = 这就是简单调和平均数的公式。

0. 5+0. 4+0. 25

=0. 38(元）

∑

㈡加权调和平均数

例3：某种蔬菜价格早上为0.5元/斤、中午为0.4元/斤、晚上为0.25元/斤。现早、中、晚各买2元、3元、4元，求平均价格。 2+3+49

===0. 33(元)

23427. 5 ++

0. 50. 40. 25

m ∑用公式表示为：H = m

∑

调和平均数和算术平均数在特定的条件下存在着变形关系：设M=xf，则：f=M/x

H =

∑M ∑

M x

∑xf ∑f

三、几何平均数

1、定义：几何平均数是n 个变量值连乘积的n 次方根。

2、计算：由于所掌握的资料不同，分为简单几何平均数和加权几何平均数

㈠简单几何平均数：未分组的原始数据，或分组后各变量值出现的次数均相等。 X G =

X 1*X 2*... *X n

例：1994-1998年我国工业品的产量分别是上年的107.6%、102.5%、100.6%、102.7%、102.2%，计算这5年的平均发展速度。 =X 1⋅X 2⋅... ⋅X n

X G

=5. 076⨯1. 025⨯1. 006⨯1. 027⨯1. 022

=1. 031=103. 1%

按计算器：1.076, ⨯,1.025, ⨯,1.006, ⨯,1.027, ⨯,1.022,=,2ndF,x y , 5,= 出现结果：1.0309即103.1% ㈡加权几何平均数：分组且各组变量值出现的次数（权数）不相等

X =∑x 1f ⋅x 2f ⋅... ⋅x n f

例：某地区25年的年经济增长速度分别是：1年3%，4年5%，8年8%，10年10%，2年15%，求该地区经济的平均年增长速度。 ∑f f ⋅f ⋅... ⋅f

x 11x 22x n n X G =

=. 03⨯1. 054⨯1. 088⨯1. 110⨯1. 152

=1. 086=108. 6%

1.03, ⨯,(,1.05,yx,4,),⨯,(,1.08,yx,8,), ⨯,(,1.1,yx,10,),⨯,(,1.15,yx,2,), =,2ndF,

y , 25,=

出现结果：1.086即108.6%

（三）使用几何平均法应注意问题

第一、变量值要是相对数，且不能为负值或零

第二、这些相对数的连乘积要等于总速度或总比率。

总结：几何平均法是计算平均速度或平均比率最适用的一种方法，凡变量值的连乘积等于总速度或总比率，求其平均速度和平均比率时，均可用几何平均法。

举例：某厂有四个流水连续作业车间，某月的合格率分别为：0.95，0.92，0.90，0.80，求四个车间的平均合格率。计算：

n x x x .... x =0. 95⨯0. 92⨯0. 90⨯0. 80

123n

=0. 9043=90. 43%

为什么说几何平均数是一种特殊的均值？因为：

X G =

x 1⨯x 2⨯ ⨯x n =

∏x

i =1

可写成：lg X G =

∑lg

(lgx 1+lg x 2+ +lg x n ) =

i =1

x i

四、众数

1、定义：是一个统计总体或分布数列中出现次数最多的变量值。 2、计算：众数可以根据品质数列计算，也可以根据变量数列计算例如变量数列中的单项式数列：

价格（元）销售量（公斤） 2.00 20 2.40 60 3.00 140 4.00 80 众数为：3.00元

例如品质数列：为研究广告市场的状况，一家广告公司在某城市随机抽取200人就广告问题做了邮寄问卷调查，其中一个问题是：您比较关心下列那一类广告？广告类型人数（频数）频率(%）商品广告 112 56.0 服务广告 51 25.5 金融广告 9 4.5

房地产广告 16 8.0 招生招聘广告 10 5.0 其他广告 2 1.0 这里，众数即为商品广告

（2）对于变量数列中的组距式数列：先确定众数所在的组，然后用公式计算。公式分上限公式和下限公式。

∆1f m -f m -1

下限公式： M 0=L +d =L +d

(f m -f m -1)+(f m -f m +1)∆1+∆2

f m -f m +1

上限公式： M =U -∆2d =U -d 0

(f m -f m -1)+(f m -f m +1)∆1+∆2

注：上述公式通常只适用于等距的变量数列，或者至少变量数列中间频数最多的几个组应该是等距的。

其中:L 为众数所在组的下限；U 为众数所在组的上限

f m 为众数所在组的次数； ∆1=f m -f m -1f m-1为众数所在组的前一组的次数

∆2=f m -f m +1f m+1为众数所在组的后一组的次数

例：分数 x 人数 f

60以下 2 60~70 7

70~80 15 80~90 10 90以上 6 合计 40

∆1∆2

M =L +d M =U -d 00 ∆1+∆2∆1+∆2

f m -f m -1f m -f m +1

=L +d =U -d (f m -f m -1)+(f m -f m +1)(f m -f m -1)+(f m -f m +1)

(15-7) (15-10)

=70+10=80-⨯10 (15-7) +(15-10) (15-7) +(15-10)

=76. 15(分）=76. 15(分）

3、关于众数说明

1）不受极端值的影响

2）既适用于品质数列（定类和定序尺度的数据），也适用于变量数列（定距与定比尺度的数据）

3）一组数据可能没有众数或有几个众数无众数

原始数据: 10 5 9 12 6 8 无众数

原始数据: 6 5 9 8 5 5 多于一个众数

原始数据:25 28 28 36 42 42 五、中位数

1、中位数的概念：将各单位标志值按大小排列，居于中间位置的那个标志值。 2、中位数的计算三种情况第一、未分组原始资料第二、单项式数列第三、组距式数列

第一、未分组原始资料：

先将数据按从小到大顺序排列 n +1 (1)如项数为奇数，居于中间位置上的标志值为众数。中间位置为：

例：有9个数值：

2、3、5、6、9、10、11、13、14 中位数为第5个，即9。 (2)如项数为偶数，中位数为中间位置上的2个标志值的平均值。 n n +1 中间位置为和

例：有10个数值

2、3、5、6、9、10、11、13、14、15

中位数为第5个和第6个数据的平均值，即9.5。第二、单项式数列

先将变量值排序，并将次数进行累计，以确定中位数的位置。中位数的位置可用近似公式确定： ∑f

举例： 2

中位数位置=80/2=40

按向上累计次数，中位数=34。按向下累计次数道理相同第三、组距式数列

分数人数向上累计向下累计 60以下 2 2 40 60~70 7 9 38 70~80 15 24 31 80~90 10 34 16 90以上 6 40 6 合计 40 --- ---

A 、先将次数进行累计

B 、确定中位数所在的组：用本例中为：40/2=20，即中位数应在将分数从高到低排列后的第20个学生的分数上。

C 、计算中位数的近似值： f ∑-S M -1公式：

M e =L +d

f M

下限公式=

上限公式= M

∑

=U -

-S M +1f M

其中:L 为中位数所在组的下限；U 为中位数所在组的上限

f M 为众数所在组的次数；

S M-1为中位数所在组以下的累计次数； S M+1为中位数所在组以上的累计次数； ∑f 为总次数；d 为中位数所在组的组距。带入资料得：

4040 -16-9

M e =80-⨯10=77. 33M e =70-⨯10=77. 33

1515

六、各种平均数之间的关系

1、数值平均数和位置平均数的比较： 1）前者是根据总体内各个标志值计算的，后者是根据总体中某一个特殊位置上的标志值确定的。 2）前者容易受极端值的影响，后者不会。 2、各种数值平均数的比较

1）适用的场合不同。一般说，在计算单位标志平均数时，用算术平均数或调和平均数；在计算动态比率的平均数时，用几何平均数。

2）计算的繁简程度不同。算术平均数的计算过程最简单，其他数值平均数的计算都相对复杂一些。

3）某些数值平均数对变量的取值有特殊的限制。几何平均数要求平均变量不能为负或零，调和平均数则要求不能平均变量不能为零。

第二节标志变异指标（分布的离散程度）

一、标志变异指标的概念和作用㈠标志变异指标的概念

又称标志变动度，是描述总体各单位标志值差别大小程度的指标。例某车间两个生产小组各人日产量如下：甲组：20，40，60，70，80，100，120 乙组：67，68，69，70，71，72，73

从可以看出甲组离散程度大，乙组离散程度小。㈡标志变异指标的作用

1、是评价平均数代表性的依据。

标志变动度大，平均数的代表性就小；标志变动度小 , 平均数的代表性就大例如：三组学生的年龄（岁）

20 20 20 20 20 ---差距最小，20岁的代表性最好 18 19 20 21 22

15 16 20 24 25---差距最大，20 岁的代表性最差。

2、能反映社会经济活动过程的均衡性或协调性。

3、能反映总体各单位标志值（变量值）分布的离中趋势㈢标志变异指标与平均指标的区别

⒈代表的含义不同。二者虽都是代表值，但平均指标代表现象总体的一般趋势，变异指标代表现象的离散水平。

⒉抽象的内容不同。平均指标将标志值之间的差异抽象化，变异指标正是为了反映标志值之间的差异。

⒊反映总体的角度不同。平均指标反映总体分布的集中数量特征，变异指标反映总体分布的离散数量特征。二、全距

㈠全距的概念：全距，又称极差，是总体各单位标志的最大值和最小值之差。 R = Xmax-Xmin

例：假设学生外语成绩例中，最低分为48分，最高分为96分，则全距 = 96-48=48（分）在组距数列中：R ≈最高组上限—最低组下限㈡全距的优点和缺点

优点：计算简单、涵义直观

缺点：1、易受极端数值的影响； 2、不能反映中间变量的分布情况三、平均差

㈠平均差的概念

平均差是各单位标志值与其算术平均数离差绝对值的算术平均数。（二）计算：简单式： A . D = ∑x - 加权式： A . D =∑x -f

n ∑f

例：一组学生年龄： 18 19 20 21 22 求平均差。因为：

A . D =∑x - n

6 ==1. 2(岁）200个工人产量资料（单位公斤） 5

日产量工人数 30以下 10 30~40 70 40~50 90 50以上 30 合计 200 求A.D

∑xf =8400=42∑x -f =1320=6. 6(公斤）=（公斤）A . D =

200 ∑f 200∑f

（三）平均差的特点：

优点：和全距相比，弥补了全距不足，能反映中间标志值的变动；缺点：加绝对值符号，数学性不理想四、标准差（均方差）

㈠概念：是各单位标志值与其算术平均数离差平方的算术平均数的平方根。又称均方差。标准差的平方为方差

22（二）计算 ∑(x -)f ∑(x -)

简单式： σ = n 加权式： σ=

∑f

2 2(x -)f 2

()x -σ=∑方差： 2=∑σ

∑f n

简单式举例：例：一组学生年龄： 18 19 20 21 22 x -(x -)2x

18 -2 4

(x -)2 19 -1 1 ∑σ= 20 0 0 n

21 1 1 22 2 4 ==1. 414（岁）

合计 - 10 5例： x -2f 122008400∑∑xf ===42(公斤）σ===7. （公斤）8 200∑f f 200∑ 计算器的使用：开机：ON ，2ndF ，ON

进入到统计功能后，用计算平均数的方法输数据所有的数据输完后，按 2ndF 键，再按 σ 键，即为标准差（三）标准差的优缺点

优点：弥补了平均差和全距的不足

缺点：利用标准差不能比较性质不同的数列（即水平高低不等和计量单位不同）离散程度的大小。

五、离散系数

例一：两组动物体重（单位：公斤）甲：２，３，４乙：２００，２１０，２２０试比较平均数的代表性。

∑x =3(公斤) ∑x =210平均数为： ==（公斤）

n n

2222

（x -) (2-3) +(3-3) +(3-4) ∑σ===0. 816公斤甲

n 3

2222

（x -) (200-210) +(210-210) +(220-210) ∑

==8. 16公斤 σ乙=

n 3

因为甲＜σ乙. 甲＝３公斤的代表性好于. 乙＝210公斤的代表性。上述结论不一定正确

因为：数列性质不同（水平高低不等或者计量单位不同），不能直接用标准差（或平均差）来比较平均数的代表。

这种情况下，要比较平均数的代表性的大小（即数列的离散程度），必须用相对离散程度指标 — 离散系数。

离散系数又称变异系数，是一类相对数形式的变异指标。它是将前面提到的各种变异指标与其平均指标对比的结果。

有全距系数、平均差系数、标准差系数等等

用来对比不同水平的同类现象，特别是不同类现象总体平均数代表性的大小:标准差系数小的总体，其平均数的代表性大；反之，亦然。对于例一

σ甲 σ0. 8168. 16V 甲=＝⨯100%=27. 2%V 乙=乙＝⨯100%=3. 89% 3X 甲210X 乙因为v ＞v

乙甲

所以甲=3公斤代表性小于乙=210公斤。

甲

乙

总结：比较两组数据的离散程度（即比较平均数的代表性）时：

如果两组平均数相等且计量单位相同时，可直接使用标准差比较；

如果两组平均数不等，或虽然平均数相等但计量单位不同时，则需使用离散系数比较。离散系数主要用于比较性质不同总体数据的离散程度。

第五章统计分布的数据特征

相关内容

热门内容