第二章 统 计
§2.1 随机抽样
【入门向导】
2008年8月8日举世瞩目的北京奥运会开幕了!
新华网北京8月10日电,国际奥委会新闻发言人吉赛尔·戴维斯今天说,8亿4千万中国电视观众收看了北京奥运会开幕式,这个收视率令人惊讶.
据CMS媒介研究所9日发布的数据,北京奥运会开幕式收视观众规模占到全国电视总人口的68.8%,本届奥运会开幕式收视率创下了自国内有收视率调查以来的新纪录,在李宁环绕鸟巢飞奔点火的这一刻,收视份额攀上90%.
另据AGB尼尔森的统计显示,超过9成中国家庭收看了奥运会开幕式电视直播,其中天津观众收看比例为97%,达到全国最高.
同学们有没有考虑过收视率是如何统计出来的呢?可行的方法之一是抽取一部分地区进行收视率调查.如何抽取呢?
1.普查在实际应用中是不合适的
一般地,如果检验对于个体具有破坏性,则需要通过抽样来推断总体的特性.有很多检验具有破坏性,如对产品的寿命、合格率等问题的检查.因此,我们需要通过随机抽样抽取样本来估计总体.
2.抽样时不能使用方便样本
方便样本的代表性差,基于这种样本得出的结论与事实不符的可能性大大增加.
3.随机抽样时,每个个体被抽到的机会都相等
在判断一锅汤的味道时,如果汤被充分搅拌了,我们只需品尝一勺就可以了.同样,样本数据也要来自“搅拌均匀”的总体.在简单随机抽样的定义中,“总体内的各个个体被抽到的机会都相等”是“总体中的所有个体搅拌均匀”的统计描述.
例1 (1)为了了解某地参加计算机水平测试的5 000名学生的成绩,从中抽取了200名学生的成绩进行统计分析.在这个问题中,5 000名学生成绩的全体是( )
A.总体
B.个体
C.从总体中抽取的一个样本
D.样本的容量
解析 5 000名学生的成绩是我们所考查对象的全体,叫总体.
答案 A
(2)关于简单随机抽样的特点,有以下几种说法,其中不正确的是( )
A.要求总体的个数有限
B.从总体中逐个抽取
C.它是一种不放回抽样
D.每个个体被抽到的机会不一样,与先后顺序有关
解析 随机抽样最重要的特点就是每个个体被抽到的机会都相等,与先后顺序无关. 答案 D
我们知道,三种抽样方法的共同点是在抽样过程中每个个体被抽到的机会相等且都为不
放回抽样.但是,在什么情况下使用简单随机抽样、系统抽样和分层抽样呢?三种方法中哪一种更好?下面就让我们通过对系统抽样与分层抽样的详细分析,感悟一下它们三者之间的联系与区别.
1.系统抽样
系统抽样适合总体中个体数较多,且个体之间无明显差异的情况,其特点是等距抽取.当N(N为总体中个体数目,n为样本容量)不是整数时,需先从总体中随机剔除多余的个体.在n
剔除多余的个体以及完成分段后,确定第一个个体编号时,使用的是简单随机抽样.
例2 某单位共有职工823人,为了调查工人上班时,从家到单位的平均所用时间,决定抽取10%的工人调查这一情况,问如何完成这一抽样?
思路分析 由于总体的人数较多,且不考虑个体差异,因此需采用系统抽样法.
解 (1)先将工人随机编号为000,001,„,822;
(2)用随机数表法,从编号000~822中剔除3人,再把编号按顺序补齐为000,001,„,
82081910,分成82段,每段10人; 82
(3)在第一段000,001,„,009中随机确定一起始号k0(可以用抽签法),则编号k0,k0+10,„,k0+810对应的职工为所取得的一个样本.
注 使用系统抽样进行编号时,也可利用学生证号,座位号等.
感悟 (1)体会区别:简单随机抽样和系统抽样的共同特点是总体中的个体差异较小,此题从这一个角度看,两种方法都适合.但是,由于抽取的样本容量较大,为了减少工作量,采用系统抽样法较为简捷.
(2)分析联系:简单随机抽样法是系统抽样的基础.此题在剔除个体时,由于总体个数较多,因此使用随机数法剔除多余的个体;分段后的第一段个体数较少,因此可使用抽签法.
2.分层抽样
当总体中的个体差异较大时,一般采用分层抽样法.抽样过程中,每层中所抽取的个体数可按各层在总体中所占比例抽取;在各层独立抽取时,可使用简单随机抽样或系统抽样法.
例3 某单位共有职工162人,其中老年人27人,中年人54人,青年人81人,为了调查他们的身体状况,需要从他们中抽取一个容量为36的样本,问应当采用怎样的抽样方法?应从老年人、中年人、青年人中分别抽取多少人?
思路分析 从实际问题思考,老年人、中年人、青年人的身体状况有着较大的差异,因此应采用分层抽样法.
解 由于各部分之间的个体有较大的差别,所以应采用分层抽样.因为27∶54∶81=1∶2∶3,设从老年人、中年人、青年人中各抽取个体数分别为x,2x,3x.则由6x=36得x=6,故应从老年人、中年人、青年人中分别抽取6人,12人,18人.
275481注 也可以按各部分所占总体的比进行计算,即36=6,36=12,×[1**********]
=18.
感悟 (1)体会区别:分层抽样适合总体中个体差异较大的情况,而系统抽样适合总体中的个体数较多的情况;另一方面分层抽样是按比例抽取,而系统抽样是等距抽取.
(2)分析联系:在分层抽样中,当每一层中个体数目较大时,可使用系统抽样,若数目较小时,使用简单随机抽样法抽取即可.
1.围绕抽样方法的概念设置的陷阱
例1 盒子中共有80个零件,从中任意拿出一个进行质量检验,然后把它放回盒子,再次从中拿出一个进行质量检验,然后再把它放回盒子„„,照此方法,依次抽取5个进行质量检验.这种抽样方法是否属于简单随机抽样?说明理由.
错解 是简单随机抽样,实质上就是从有限的80个零件中任意选出了5个进行质量检验.
正解 不是简单随机抽样,因为简单随机抽样是不放回抽样.
2.围绕“分层抽样”与“系统抽样”的选择设置的陷阱
例2 某乡镇有12个行政村,共30 000人,现从中抽出300人进行样本分析,考察其人口中癌症的发病率,应该采取哪种抽样方法?简述抽样过程.
错解 由于总体的个体相对较多,因此可采用系统抽样法.过程如下:①用随机方式将总体中的个体编号00001,00002,„,30000;②把总体分成300段,每段100人;③在第一段中用简单随机抽样确定起始个体编号i;④将i,i+100,i+200,„,i+29 900分别抽出,从而获得整个样本.
正解 一般情况下,每个村村民的健康状况是有差异的,各村的人口数量又有差别,所以应采用分层抽样.具体实施过程是:将30 000人按12个村分成12层,然后从每村的人
300口中抽取该村人口的,然后把各村抽到的人合起来,就得到了一个容量为300的样本. 30 000
3.围绕系统抽样“均分”原理设置的陷阱
例3 要从某学校的10 013名学生中抽取100名进行健康检验,采用哪种抽样方法较好?写出抽样过程.
错解 由于总体个数为10 013,数量较大,而且都是学生,差别不大,因而应采用系统抽样法.具体过程如下:由系统抽样的步骤先分为100段,其中前87段每段100人,后13段每段101人,再在第一段中用简单随机抽样确定起始个体编号i;最后将i+100,i+200,„,i+9 900分别抽出,从而获得整个样本.
正解 先用简单随机抽样从总体中剔除学生13人,再按如下步骤操作:①采用随机的
10 000方式将总体中的个体编号00001,00002,„,10000;②把整个的总体分成100段,
每段
100
=100人;③在第一段中用简单随机抽样确定起始个体编号i;④将i,i+100,i+200,„,i+9 900分别抽出,从而获得整个样本.
当今时代已进入数字时代,各种各样的统计数字和图表充斥着媒体.由于数字给人的印
象具体直观,所以大到中央机关小到日常生活中的广告,都喜欢让数据说明问题.比如我们日常接触的广告“现代研究证明,99%以上的人感染有螨虫„„”,这里99%是怎么得到的?研究共检测了多少人?这些人是如何挑选的?收集数据的常用方法是随机抽样,随机抽样的本质就是研究如何从总体中抽取样本,使所抽取的样本能够更充分地反映总体的情况.若样本抽取不当,将直接影响到对总体估计的准确性.随机抽样时应注意把握以下四个方面.
1.样本的抽取要有普遍性和代表性
样本的抽取要具有普遍性和代表性,避免盲目性和随意性,比如要调查某种产品的使用情况,不能盲目地去人多的地方调查,因为不可能所有的人都使用过这种产品,应针对使用这种产品的顾客做调查.
2.随机抽样不能带有主观性
随机抽样要注意确保总体中每个个体被抽取的可能性相等,不能带有主观性,不能带有感情色彩,不能有意或无意地选择要抽取这一个或不抽取那一个.
3.应注意周围环境因素的影响
随机抽样时,不同的时间和不同的环境都会对所抽取的样本产生影响.比如要考察某一路段的车速,在半夜或凌晨期间,由于车辆少、行人稀,车速一般较快;而在上班或下班时间,车速自然就慢.再比如,要调查老年人的健康状况,选定在医院或选定在公园都是不合理的,因为医院里的老人大多数都是身体不太健康的,而公园里的老人大多数都是比较健康的.
4.要注意选择合适的抽样方法
随机抽样时,要特别注意根据实际情况选择合适的抽样方法.
无论采取哪一种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等. 例 根据下列情况选择合适的抽样方法:
(1)30台电视机,其中甲厂生产的有21台,乙厂生产的有9台,抽取10台入样;
(2)从甲厂生产的300台电视机中,抽取10台入样;
(3)从甲厂生产的300台电视机中,抽取100台入样. 分析 应用三种抽样方法时需搞清楚它们的使用原则:
(1)当总体容量较小,样本容量也较小时,制签简单,号签容易搅匀,可采用抽签法;
(2)当总体容量较大,样本容量较小时,可用随机数表法;
(3)当总体容量较大,样本容量也较大时,可用系统抽样法.
解 (1)总体由两类差异明显的个体组成,所以应采用分层抽样,又因为每层中样本容量较小,在每层中可采用抽签法.
(2)总体容量较大,样本容量较小,可用随机数表法;
(3)总体容量较大,样本容量也较大,可用系统抽样法.
为调查小区平均每户居民的月用水量,下面是3名学生设计的调查方案:
学生A:我把这个用水量调查表放在互联网上,只要登录该网址的人就可以看到这张表,他们填表的信息可以很快地反馈到我的电脑中.这样,我就可以很快估计出小区平均每户居民的月用水量.
学生B:我给我们居民小区的每一个住户发一个用水量调查表,只要一两天就可以统计出小区平均每户居民的月用水量.
学生C:我在小区的电话号码本上随机地选出一定数量的电话号码,然后逐个给他们打电话,问一下他们的月用水量,然后就可以估计出小区平均每户居民的月用水量.
我们对上述3种方案进行分析,看哪个方案更实用有效:
学生A的方法得到的样本不能够反映不上网的居民情况,是一种方便样本,所得的结果代表性差,不能很准确地获得平均每户居民的月用水量;学生B的方法实际上是普查,花费的人力物力要多一些,但是如果统计过程不出错,可以准确地得到平均每户居民的月用水量;在小区的每户居民都装有电话的情况下,学生C的方法是一种随机抽样方法,所得的样本具有代表性,可以比较准确地获得平均每户居民的月用水量.
在小区的每户居民都装有电话的情况下,建议用随机抽样的方法获取数据,即用学生C的方法,以节省人力物力,并且可以得到比较精确的结果.
1.(日照模拟)某地区有300家商店,其中大型商店有30家,中型商店有75家,小型商店有195家,为了掌握各商店的营业情况,要从中抽取一个容量为20的样本.若采用分层抽样的方法,抽取的中型商店数是( )
A.2 B.3
C.5 D.13
20x解析 设抽取的中型商店数为x,依据分层抽样的原理,有=,解得x=5. 30075
答案 C
2.(阜新模拟)一个总体中共有100个个体,随机编号0,1,2,„,99,依编号顺序平均分成10个小组,组号依次为1,2,3,„,10.现用系统抽样的方法抽取一个容量为10的样本,规定如果在第1组随机抽取的号码为m,那么在第k组中抽取的号码个位数字与m+k的个位数字相同.若m=6,则在第7组中抽取的号码是________.
解析 根据题意,第七组中的号码是[60,69]内的正整数.因为m=6,k=7,m+k=13,所抽取的号码个位数为3,于是此号码为63.
答案 63
3.(2008·重庆)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是__________________.
解析 由分层抽样的定义可知,该抽样为按比例的抽样.
答案 分层抽样法
4.(2008·湖北)一个公司共有1 000名员工,下设一些部门,要采用分层抽样方式从全体员工中抽取一个容量为50的样本,已知某部门有200名员工,那么从该部门抽取的员工人数是____.
50解析 从该部门抽取的员工人数是×200=10. 1 000
答案 10
5.(2009·天津)某学院的A,B,C三个专业共有1 200名学生,为了调查这些学生勤工俭学的情况,拟采用分层抽样的方法抽取一个容量为120的样本、已知该学院的A专业有380名学生,B专业有420名学生,则在该学院的C专业应抽取________名学生.
解析 C专业有学生1 200-380-420=400(名),
400则C专业应抽取的学生数为120=40(名). 1 200
答案 40