LOGISTIC回归模型中交互作用的分析及评价 - 范文中心

LOGISTIC回归模型中交互作用的分析及评价

01/04

�9�9 934�9�9 �9�9 基础理论与方法�9�9 logistic回归模型中交互作用的分析及评价 邱宏余德新 王晓蓉付振明 谢立亚 【导读】流行病学病因学研究常运用logistic回归模型分析影响因素的作用,并利用纳入乘积项 的方法分析因素间交互作用,如有统计学意义表示两因素间存在相乘交互作用,但乘积项若元统计学 意义并不表示两因素间相加交互作用或生物学交互作用的有无。文中介绍Rothman提出的针对 logistic或Cox回归模型的三个评价相加交互作用的指标及其可信区间的计算,并以SPSS 15.O软件 应用实例分析得出logistic回归模型的参数估计值和协方差矩阵,引入Andersson等编制的Excel计算 表,计算相加交瓦作用指标及其可信区间,用于评价因素间的相加交互作用,为研究人员分析生物学 交互作用提供依据。该方法方便快捷,且Excel计算表可在线免费下载。

【关键词】logistic回归模型;相加交互作用指标;女性肺癌 Study on the interaction under logistic regression modeling Otu Hong,Ignatius%奄一SUTI yU,WANG Xiao-rong,FU Zhen—ming,Shelly Lap Ah TSE.Department of Community

and Family Medicine, School of Public Health。Chinese University of Hong Kong,

H.K.S.A.R Corresponding author:Ignatius死^一SUn yU,Email:iyu@cuhk.edu.hk 【Introduction】 when study on epidemiological causation is carried out,logistic regression has been commonly used to estimate the independent effects of risk factors.舾well as to examine possible interactions among individual risk factor by adding one or more product terms to the regression model.In logistic or Cox‟S regression model.the regression coefficient of the product term estimates the interaction on amultiplicative scale while statistica

l significance indicates the departure from multiplicativity.Rothman argues that when biologic interaction is examined,we need to focus on interaction as departure from additivity rather than departure from multiplicativity.He presents three indices to measure interaction on an additive scale or departure from additivity。using logarithmic models such aS logistic or COx‟s regression model.In this paper.we use data from fl case—control study of female lung cancer in Hong Kong to calculate the regression coefficients and covariance matrix of logistic model in SPSS.We then introduce an Excel spreadsheet

set up by Tomas Andersson to calculate the indices of interaction on an additive scale and the corresponding confidence intervals.The results can be used as reference by epidemiologists to assess the biologic interaction between factors.The proposed method is convenient and the Excel spreadsheet is available online for free. 【Key words】Logistic regression model;Indices of interaction on an additive scale;Female lung Caneel” 多元统计分析中,交互作用是指某因素的作用 随其他因素水平的不同而不同,两因素同时存在时 的作用不等于两因素单独作用之和(相加交互作用) 或之积(相乘交互作用)。目前多采用在回归方程中 纳入因素乘积项的方法进行分析。一般认为,线性 回归模型为相加模型,乘积项反映因素间是否有相 加交互作用,而logistic回归或Cox回归模型为相乘 模

型,乘积项反映因素间是否有相乘交互作用u1。 若logistic回归模型的乘积项系数不等于零且有统 计学意义,表示两因素存在相乘交互作用,但若乘积 作者单位:香港中文大学公共卫生学院社区及家庭医学系 通讯作者:余德新,Email:iyu@cuhk.edu.hk 项无统计学意义,并不表示两因素无相加交互作用, 也不表示两因素对某疾病的发生无生物学交互作 用o Rothman旧J1,Hosmer和Lemeshow¨1指出 logistic或Cox回归模型中乘积项分析的不足,从理 论上系统探讨了交互作用分析指标的构造和算法。 向惠云等b1曾介绍反映相加交互作用的三个指标和 可信区间的计算方法,因其计算过程复杂未得到推 广使用。本研究拟以logistic回归分析为例,介绍利 用SPSS软件的分析结果进一步计算交互作用的评 价指标,并引入Andersson等哺1编制的Excel计算表 估计可信区间,以期为病因学研究中评价因素间的 相加交互作用提供简便快捷的方法,亦为研究人员 万方数据 PDF Watermark Remover DEMO : Purchase from

www.PDFWatermarkRemover.com to remove the

watermark 分析生物学交互作用提供依据。 基本原理 以最简单的两因素两水平为例。假设两暴露因 子分别为A、B,1表示因素存在,0表示因素不存在, 因变量为疾病的发

生与否,其他混杂因素暂不考虑。 logistic回归模型得到的OR值作为相对危险度 (RR)的估计值。OR。。表示A、B都不存在时发病 的OR值,分析时以此为基准,因此OR00=1;ORlo 表示仅A存在、B不存在时发病的OR值;OR。。表 示A不存在、仅B存在时发病的OR值;OR。,表示 A、B共同存在时发病的OR值。 Rothman和Hosmer用于评价相加交互作用的 三个指标,即①相对超危险度比(the relative excP2 S risk due to interaction,RERI)=RRll—RRlo— RR01+1;②归因比(the attributable proportion due to interaction,AP)=RERI/RRll;③交互作用指数 (the synergy index,S)=(RRll一1)/〔(RRol一1)+ (RR。。一1)〕。如果两因素无相加交互作用,则 RERI和AP的可信区间应包含0,S的可信区间应 包含1。 Rothman用于评价相乘交互作用的指标是: RR。。/(RR。。×RR。。),如果两因素无相乘交互作用, 则该指标的可信区间应该包含1。容易证明,此相 乘交互作用指标即logistic回归模型中乘积项的 OR值。这也进一步说明logistic回归模型中乘积 项反映的是相乘交互

作用。 1.交互作用指标的点估计:logistic回归模型估 计OR,。、OR。。和OR。。可通过以下两种方法得到, 代入交互作用指标的计算公式即可得该指标的点估 计值。 (1)用两因素A、B及乘积项A×B构建模型1。 In(南)。风+卢tA+屉B+P3A×B In(ORlo)=ln(糍)_ln(odds,o)_In(oaas∞) =岛+B一岛=岛净净0四Io=epl In(OR01)_ln(糍)2In(odds01)一ha(odds∞) =岛+&一岛=岛净净0R01=P如 In(ORll)=In(糍)2In(oddslI)一In(odds∞) =岛+风+ +岛一艮=区+慝+岛净净0Rll =P^+如+吩 �9�9 935�9�9 评价相乘交互作用的指标是:OR,。/(OR。。× OR01)=ePt+如+邑/(ep�9�9 ×P屯)=P屯,说明模型1中乘 积项的OR值即反映相乘交互作用。 (2)构造新变量C并以三个哑变量的形式纳 入,构建模型2(表1)。 表l 根据两分类变量A、B构造新变量C和三个哑变量 Dural0 Dum01 Dural 1OR值 ORoo ORlo ORol ORIl In【丁当i J2艮+BDumlo+ Dumol+融Dumu „,。 OR∞=1,ORlo=ePt,ORol=P屯,ORll=Pb 可见,模型2中的p。、&分别等同于模型1中的p。、 ,

而口,等于模型1中的p。+&+岛。 2.交互作用指标的区间估计:运用Hosmer和 Lemeshow【41介绍的Delta方法估计可信区间,计算 所需的因素间方差和协方差项可由SPSS的 Multinomial过程选中“Asymptotic Covariance”得到 的协方差矩阵代入计算。本研究引用Andersson 等№1编制的Excel计算表,输入模型1的p。、f12、 (融+ +融)或模型2的p,、&、p,以及因素A、B间 的方差和协方差,可以方便快捷地得到RERI、AP 和S的估计值及其95%a,进而评价因素间是否具 有相加交互作用。 SPSS软件的Muhinomial logistic过程用于无序 多分类反应变量的logistic回归建模,当因变量为两 分类时,Multinomial过程与Binary logistic过程得到 的参数估计值结果一致,但前者可以给出因素间的 协方差矩阵。 实例分析 以香港女性肺癌的病例对照研究资料为例,分 析吸烟和癌症家族史在女性肺癌发生过程中有无交 互作用(表2)。为简化计算,暂不考虑其他因素的 作用和混杂因素的影响。 构造乘积项fhisca×smoke,利用SPSS软件的 Binary logistic过程得到模型1的参数估计值(表 3)。或构造新变量fhisca sm,以哑变量形式纳入 得到

模型2的参数估计值(表4)。 用SPss软件的Multinomial过程,因变量选择 万方数据 PDF Watermark Remover DEMO : Purchase from

www.PDFWatermarkRemover.com to remove the

watermark �9�9 936�9�9 以control作为参照,对自变量fhisca—sm重新编 码,定义fhisca和smoke都不存在的水平为最高水 平(因SPSS 15.0软件中Multinomial默认以自变量 的最高水平为参照),并选中Asymptotic Covariances 估计的方差、协方差矩阵(表5)。 表2 香港女性肺癌病例对照研究的癌症家族史 和吸烟资料 注:资料为调查所得,表内数据为实际样本量放大10倍 表3 模型I的logistic回归结果 表4 模型2的logistic回归结果 项目 fhisca smoke fhisca smoke 将上述模型1的p,、 、(p。+&+p,)或模型2 的岛、 、 以及因素间的方差和协方差输入Excel 计算表(表6),可得到RERI、AP和S的点估计、 95%a及交互作用示意图(图1)。 本例模型1乘积项fhisca×smoke无统计学意 义(P=0.405),说明两因素无相乘交互作用,癌症 家族史和吸烟对香港女性肺癌的发生没有相乘交互 作用;Excel计算表显示RERI、AP的

可信区间大于 0,S的可信区间大于1,图1直观显示癌症家族史 与吸烟交互作用OR值的大小,说明癌症家族史和 吸烟对香港女性肺癌的发生有相加交互作用(此为 协同作用)。RERI和S意义相同,AP表示全部病 例中可归因于两因素交互作用的病例所占的比例, 本例AP=0.469,说明全部女性肺癌病例中归因于 癌症家族史和吸烟的交互作用所引起的病例占 46.9%。但因本研究分析未考虑其他因素的作用及 混杂因素的影响,且分析时为了缩窄可信区间用了 实际观察的10倍样本量分析,所得结论不一定代表 真实情况。 表6 相加交互作用指标Excel计算表 fhisea smoke fhisca&smoke Regr.coefficients 0.801 30 1.03l 83 2.027 26 Coy fhisca 0.005 32 0.001 29 0.001 29 Coy smoke 0.001 29 0.008 58 0.00l 29 Coy fl恤ea smoke O.001 29 O.00I 29 O.042 96 Exposure RR Lower Upper 3.559 0.469 2.173 0.467 0.244 1.323 6.650 0.693 3.567 .宙smoke .口皿lisea .ElU 黝-. 囹囫 注:U为不吸烟且无癌症家族史的类别。i殳为对照组,OR=1 圈1 癌症家

族史与吸烟交互作用示意图 讨论分析交互作用,首先应该清楚统计学交互作用 和生物学交互作用的区别b川。统计学交互作用是 关于多风险因素的统计模型和参数的定量概念,指 在统计模型中纳入乘积项的意义,即随选用模型的 不同而不同:线性模型是加法模型,乘积项表示有无 相加交互作用,而对于logistic或Cox等乘法模型, 乘积项表示有无相乘交互作用。生物学交互作用是 关于多风险因素在发病的生物机制上的定性概念, 指两因素皆为病因的前提下是否具有在发病的生物 机制上的相互联系,包括协同作用和拮抗作用。生 物学交互作用的评价不能等同于统计模型中乘积项 的分析。 Rothman【31认为,生物学交互作用的评价应该 g7654321O酣坦考 心舻s 万方数据 PDF Watermark Remover DEMO : Purchase from www.PDFWatermarkRemover.com to

remove the watermark 基于相加尺度而非相乘尺度,因此对logistic、Cox回 归等相乘模型构建了本文介绍的三项指标,用于评 价因素间是否有区别于相乘交互作用的相加交互作 用。实际应用中可以用SPSS软件计算的模型参数 估计值和因素间的协方差矩阵,代入Andersson 等哺1编制的Excel计算表,方便快捷地得出三个相 加交互作用指标的点估计和可信区间,为流行病学 研究人员分析生物学交互作用提供参考依据。但是

相加交互作用是否即表示生物学交互作用,笔者认 为还值得商榷,可能是两因素均为病因前提下的相 加交互作用可以解释为生物学交互作用。 本研究给出了一个没有相乘交互作用但有相加 交互作用的例子,实际分析中还可能碰到有相乘交 互作用但不一定有相加交互作用的情况。因为相乘 交互作用有统计学意义有两种情况:负相乘 (0R<1)和正相乘(0R>1),有负相乘交互但无相 加交互的情况在我们的资料分析中常常可见,也有 相关文献为证埔1;而有正相乘交互时,对应的相加交 互作用应该也有统计意义,这是从相乘、相加交互的 概念上来推论的,还有待证实。 本法适用于两因素两水平时的相加交互作用的 评价,当两因素或其中之一为保护因素时,因素变量 的编码应以高风险的一类作为暴露,以避免解释上 的混乱口〕。例如注射疫苗是某病的保护因素,在分 析其与环境因素的交互作用时,将注射疫苗编码为 0,而不注射编码为1。实例分析多有混杂因素存 在,可在拟合logistic回归模型时加入混杂因素分 析,然后将得到的参数估计值和协方差矩阵代入 Excel计算表。当因素变量为多分类或连续变量时, 三个交互作用指标仍可应用,Knol等…对此有详细 阐述。但对于可信区间的估计方法,本研究引入的 Excel计算表不再适用,Assmann掣引提出Bootstrap 法优于Hosmer和Lemesh

ow¨1介绍的Delta法: �9�9 937�9�9 Bootstrap法在原始数据中做重复千次、万次的模拟 随机抽样,估计的可信区间更稳定可靠;且当因素为 连续变量时,每改变2个单位或5个单位将导致 RERJ,AP和S及其可信区间的非线性变化,对此 Bootstrap法能做出准确估计而Delta法不能。因此 用logistic回归模型分析两个连续自变量或连续变 量与分类变量间的交互作用时,其相加交互作用指 标可信区间的估计建议使用Bootstrap方法。 参考文献 〔1】Kuol MJ,van Der Tweel I,Grobbee DE。et a1.Estimating interaction on an additive scale between continuous determinants in alogistic regression modd.Int JEpidemiol,2007,36(5):1111— 1118. 【2〕Rothman KJ,Greenland S.Modem epidemiology.2rid ed8. Philadelphia:A Wohers Kluwer Company.1998:329—342. 〔3】Rothman KJ.Epidemiology:8n introduction.New York:Oxford Uni

versity Press,2002:168—180. 〔4】Hosmer DW,Lemeshow S.Confidence interval estimation of interaction.Epidemiology,1992,3:452—456. 【5〕向惠云,余松林,孙奕,等.疾病资料多元分析中交互作用指标 及可信区间的估计.中国卫生统计,1999,16:130—133. 〔6〕Andersson T,Alfredsson L,Kallberg H,et a1.Calculating measures of biological interaction.Eur JEpidemiol,2005,20: 575—579. 〔7〕Ahlbom A,Alfredason L.Interaction:word with two mcmiing¥ crestes confusion.Eur JEpidemiol,2005,20:563.564. 〔8】Gustavsson P,Nyberg F,Pershagen G,et a1.Low-dose exposure to asbestos and lung cancer:dose-response relations and interaction with smoking in apopulation-based ea

se-referem st、xiy in Stockholm,Sweden.Am JEpidemiol,2002,155(11):1016— 1022. 〔9】Assmann SF,Hoe口ner DW,Lemeshow S,et a1.Confidence intervals for measures of interaction.Epidemiology,1996,7:286�9�9 290. (收稿日期:2008.04.28) (本文编辑:张林东) 万方数据 PDF Watermark Remover DEMO : Purchase from

www.PDFWatermarkRemover.com to remove the watermark


相关内容

  • 医学本科毕业论文-高血压犯病及其因素影响分析
    本科生毕业论文(设计) 题目张家口市某社区高血压患病率及影响因素研究 姓 名 李海清 指导教师 王海平 二级学院 河北北方医学学院 专 业 中医医学 年 级 2012级 学 号 122130100 2014年 11 月 16日 目 录 封面 ...
  • 关于人口承载力的文献综述
    摘 要:本文综述了人口承载力研究的进展及存在的问题.首先介绍承载力的概念及其由来和发展,其次总结人口承载力研究的内容.定量方法.虽然已有研究具有一定的合理性,但由于承载力的概念的复杂性.系统性,从现实的标准看,有可能将人口承载力测算的问题简 ...
  • 数学专有名词
    数学专业英语词汇英汉对照 Tag : 数学 专业 英语 词汇 英汉 1 概率论与数理统计词汇英汉对照表 A absolute value 绝对值 accept 接受 acceptable region 接受域 additivity 可加性 ...
  • 员工满意度论文-民企新员工胜任度满意度安全度关系研究
    员工满意度论文- 民企新员工胜任度满意度安全度关系研究 摘 要:通过对中国民营企业新员工的小样本调查,运用主成份分析法抽取出有关民营企业新员工的三个变量:胜任度,满意度,安全度.对三者之间的关系进行统计分析发现:民企新员工的安全度在年龄上有 ...
  • 上市公司现金流量表的分析技巧
    第20079--g2期 商业经济 No.2,2007 :兰量:2竺: [文章编号]l009-6043(200'7)02一0097-02 :坚型2:!!!!旦1 2:坚翌 上市公司现金流量表的分析技巧 张秀秀 (齐齐哈尔市建华区防疫站,黑龙江 ...
  • 大学生网络购物情况及影响因素分析
    大学生网络购物情况及影响因素分析 一.研究问题 本文主要的研究问题是大学生网购状况及其部分影响因素.伴随电子商务的发展,消费者的消费方式发生了巨大变化,网络购物蓬勃发展.大学生网民占网民总体四成左右,使用网络购物人数占网络购物网民数的半数以 ...
  • 第8章空间计量交互模型处理及现实研究拓展
    空间计量经济学导论(詹姆斯.勒沙杰)课件 范 巧 fanqmn@hotmail.com 重庆科技学院经济系 小范经济工作室 在经济学的边缘上 拟讲授的主要内容  流量矩阵及传统引力模型设定  空间自回归交互模型设定及参数性质  空间自 ...
  • 工资报酬的数学模型
    A 题:垃圾分类处理与清运方案设计 垃圾分类化收集与处理是有利于减少垃圾的产生,有益于环境保护,同时也有利于资源回收与再利用的城市绿色工程.在发达国家普遍实现了垃圾分类化,随着国民经济发展与城市化进程加快,我国大城市的垃圾分类化已经提到日程 ...
  • 马尔萨斯人口增长
    2015年数学建模论文 第二套 题 目:人口增长模型的确定 专业.姓名: 自动化 强晓鹏 提交日期: 2015.7.3 题目:人口增长模型的确定 摘要 人口预测是制定正确的人口政策的科学依据.预测人口增长的数学模型通常采用 3 种函数 ,即 ...