基于ZIP模型的零膨胀检验方法的比较研究 - 范文中心

基于ZIP模型的零膨胀检验方法的比较研究

09/19

  摘要针对已存在关于零膨胀的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,在不同零膨胀程度、不同均值和不同样本量下对上述检验作比较研究.得到了不同条件下7种检验方法的优良性,并结合理论对7种检验方法进行分析.

  关键词零膨胀;模拟;检验功效;第一类错误

  中图分类号O212.1文献标识码A

  1引言

  计数数据是一种广泛存在于医学、保险和农林等领域的数据类型.当计数数据中零的比例超出泊松(Poisson)或负二项(NB)分布等一般计数模型的预测能力,这类现象被称为计数资料的零膨胀[1].针对存在零膨胀现象的计数数据,常见的统计分析模型有零膨胀泊松模型、零膨胀负二项回归模型等.而在用零膨胀模型对数据进行拟合分析时,首先要对数据是否存在零膨胀进行检验.关于数据是否存在零膨胀,一方面可以通过直方图等做简单的直观分析与判断,但所得结论较为粗糙[2];另一方面可以通过建立检验统计量进行假设检验,得到较为精确的结论.1954年Cohran[3]提出了一个不考虑协变量的C检验,1956年Rao和Chakravarti[4]针对小样本量提出另一个考虑协变量的R检验,这两种检验方法只考虑响应变量的观测值,相对较为直接.1985年ElShaarawi[5]推导了基于ZIP模型下似然比检验的统计量,并通过模拟分析比较了R检验、C检验和似然比检验的功效.1995年Van den broek[6]提出了基于零膨胀泊松(ZIP)模型下的Score检验;2001年M.Xie[7]提出了基于ZIP模型的基于置信区间检验,并通过模拟方法对C检验、R检验、似然比检验、Score检验、基于置信区间的检验和卡方检验的功效进行比较;2009年Saranya Numna[8]提出了基于ZIP模型下的Wald检验.

  本文在基于ZIP模型条件,通过Monte Carlo模拟分析方法,在功效和犯第一类错误比例的意义下,对上述的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验在不同零膨胀程度、不同均值和不同样本量下作比较研究.

  2零膨胀模型及零膨胀检验方法介绍

  2.1零膨胀泊松(ZIP)模型

  零膨胀(ZI)模型的基本思想是认为事件的发生数来自于两部分:一部分随机变量的取值只为零(这部分零称为结构零),另一部分来自一个离散分布(此时的零称为抽样零),由此可得零膨胀模型的一般形式是:

  再对图1的模拟结果进行分析.首先考虑λ变化、n不变条件下观察不同零膨胀的功效.从图1模拟结果看出,随着λ的增大,Wald检验和基于置信区间的检验与其他5种检验的功效差距逐渐增大.

  然后考虑n变化、λ不变条件下观察不同零膨胀的功效.从图1可以看出,当n比较小(如n=20,50)时,R检验和C检验的功效高于其他检验的功效.当n比较大,ω比较小(如n=100,200,ω0.05)时,7种检验方法的功效差别不明显.

  综合模拟结果可知,大多数情况,R检验法和C检验法对零膨胀检验的功效高于其他5种检验,其它检验的功效大小依次为:Score检验>卡方检验>似然比检验>Wald检验>基于置信区间检验.

  3.2模拟检验方法犯第一类错误的比例

  通过犯第一类错误的比例对7种检验方法进行比较分析.这里只考虑n=50,λ=3的情况,ω的取值和随机数产生的方法同上.对每组参数,实验均重复3 000次.实验结果见表2,其中P表示同一组参数对应的3 000组数据中存在零膨胀的比例.模拟结果见表2.

  表2中的倾斜加粗表示犯第一类错误的最小值,倾斜加下划线表示第二小的值.从表2模拟结果可以看出,当n=50,λ=3时,在不同零膨胀程度下,卡方检验犯第一类错误的比例总是最小,而R和C检验犯第一类错误的比例大于卡方检验小于其他四种检验.此外,从表2模拟结果同样可知,在给定的n=50,λ=3的条件下,随着零膨胀程度的增加,7�N检验方法犯第一类错误的比例均有减少的趋势.

  4结论

  本文在以检验功效和犯第一类错误比例为评判准则下,通过Monte Carlo模拟分析方法,对已存在的R检验、C检验、Score检验、卡方检验、似然比检验、Wald检验和基于置信区间检验作了比较研究.得出7种零膨胀检验方法可以有效的检验零膨胀是否存在;其中,基于置信检验的功效最低,主要原因在于该方法对零假设有非常强的保护;虽然R检验和C检验的功效比其他5种检验的功效大,即“纳伪”的概率比其他五种检验小,但是这两种检验方法因不考虑协变量,有时候会导致信息的丢失.卡方检验犯第一类错误的比例比其他检验的低,即“弃真”的概率低,但是,卡方检验是基于均值与方差相等的Poisson模型,所以卡方检验有时会导致纳入过多的错误信息,如可能考虑了过度离散情况.似然比检验、Score检验和Wald检验是基于ZIP模型,所以更能反映真实情况,而Score检验的统计量是最简洁的.在应用过程中,零膨胀作为一种现象只是相对而言,因此针对具体问题,应该仔细观察和考虑可能同时存在的其他特殊情况,以选择合适的模型进行拟合.

  参考文献

  [1]王存同. 零膨胀模型在社会科学实证研究中的应用――以中国人工流产影响因素的分析为例[J]. 社会学研究, 2010(5):130-148.

  [2]谢锋昌.零过多数据的统计分析及其应用[M].北京:科学出版社, 2013.

  [3]Cochran W G.Some metools for stengthening the canman X2 test[J].Biometrics,1954,10(4):417-451.

  [4]Rao C R,Chakravarti I M. Some small sample tests of significance for a poisson distribution[J]. Biometrics, 1956, 12(3): 264-282.

  [5]ElShaarawi A H. Some goodnessoffit methods for the poisson plus added zeros distribution[J]. Applied and Environmental Microbiology, 1985, 49(5):1304-1306.

  [6]Van d B J. A score test for zero inflation in a poisson destruction[J]. Biometrics, 1995, 51(2):738-743.

  [7]Xie M,He B,Goh T N. Zeroinflated Poisson model in statically process control[J]. Computational Statistics & Data Analysis, 2001, 38(2):191-201.

  [8]Numna S,Jansakul N. Analysis of extra zero counts using zeroinflated Poisson models [D].Prince:Prince Mathematics and Statistics Prince of Songkla University, 2009.

  [9]王星. 非参数统计[M]. 北京:清华大学出版社, 2009.


相关内容

  • 计量经济学论文[通货膨胀率与失业率的关系]
    ********大学 <计量经济学>课程论文 题 目:通货膨胀率与失业率的关系 学生姓名: 学 号: 专 业:金融学 班 级: 任课教师: 2014年12月 摘 要 最早系统性研究通胀与失业率之间相关性的经济学家,可能是在英国的 ...
  • 诺禾致源有参转录组分析流程
    一.建库测序流程 从RNA 样品到最终数据获得,样品检测.建库.测序每一个环节都会对数据质量和数量产生影响,而数据质量又会直接影响后续信息分析的结果.为了从源头上 保证测序数据的准确性.可靠性,诺禾致源对样品检测.建库.测序每一个生产步骤都 ...
  • 数学建模:水资源短缺风险综合评价
    2011河南科技大学第八届大学生数学建模竞赛 承 诺 书 我们仔细阅读了中国大学生数学建模竞赛的竞赛规则. 我们完全明白,在竞赛开始后参赛队员不能以任何方式(包括电话.电子邮件.网上咨询等)与队外的任何人(包括指导教师)研究.讨论与赛题有关 ...
  • 计量经济学复习重点
    1 计量经济学复习重点 第一章 1. 计量经济学的性质 计量经济学是以经济理论和经济数据的事实为依据运用数学和统计学的方法 通过建立数学模型来研究经济数量关系和规律的一门经济学科. 研究的主体出发点.归宿.核心经济现象及数量变化规 ...
  • 人民币汇率变动影响因素实证分析
    人民币汇率变动影响因素实证分析 [摘 要]汇率是国际贸易中最重要的调节杠杆,在国际金融和国际贸易活动中执行着价格转换职能,它的变动对国家对外贸易的平衡与国内经济活动都具有深刻的影响.本文采用计量中的时间序列分析方法和多元线性回归分析方法对1 ...
  • 我国不同性质通货膨胀对股票价格波动的影响
    2010/4 我国不同性质通货膨胀对股票价格波动的影响 刘萍萍 摘 要:本文首先提出了通货膨胀与股票价格波动关系的理论,然后分析了我国1991年以来3次通货膨胀的性质及原因,最后采用5变量VAR模型对我国3次不同性质通货膨胀对股票价格的影响 ...
  • 金融理论前沿课题作业1
    金融理论前沿课题作业1 1.股东掠夺:简单地说,股东掠夺就是股东利用破产牟利的行为. 2.非红利掠夺:非红利掠夺方式中最重要的是通过贷款方式进行的掠夺. 假定E0为股东的投资额,C1是股东从本银行贷出款项的余额(包括股东自己的企业和关联企业 ...
  • 期末试题3及答案_计量经济学
    计量经济学 一.判断题(每小题2分,共20分) 1.在实际中,一元回归没什么用,因为因变量的行为不可能仅由一个解释变量来解释. ( ) 2.OLS方法不适用于估计联立方程模型中的结构方程.() 3.D-W值在0和4之间,数值越小说明正相关的 ...
  • 一种电子式电流互感器的研制
    # xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx 一种电子式电流互感器的研制 申 烛!王士敏!罗承沐 清华大学电机系!北京市#"$$$%&a ...
  • 物流企业的风险评价分析
    物流企业的风险评价分析 刘萍萍 北京物资学院劳动人事系 摘 要 随着物流产业的蓬勃发展.物流环境的日趋复杂化与竞争的日益激烈化,物流企业所面临的风险种类不断多样化,影响程度不断深化.对物流企业所面临的风险加以全面的认识,形成有效的风险评价方 ...