GRADE指南__证据质量分级_研究的局限性_偏倚风险_

Methodology

Chin J Evid-based Med 2011, 11(4): 456-463

GRADE指南：Ⅳ. 证据质量分级

——研究的局限性（偏倚风险）△

GRADE Guidelines: 4. Rating the Quality of Evidence-studyLimitations (Risk of Bias)△

Gordon H. Guyatt*，Andrew D. Oxman，Gunn Vist，Regina Kunz，Jan Brozek，Pablo Alonso-Coello，Victor Montori，Elie A. Akl，Ben Djulbegovic，Yngve Falck-Ytter，Susan L.Norris，John W.Williams Jr.，David Atkins，Joerg Meerpohl，Holger J. Schünemann，代表GRADE工作组#

摘要在GRADE方法中，若多数相关证据来自高偏倚风险的研究，则起初被定为高质量证据的随机试验和低质量证据的观察性研究均有可能被降低质量等级。随机试验已确定的局限性包括：未进行分配隐藏、未实施盲法、未报告失访情况及未恰当考虑意向性治疗原则。最近提出的局限性包括：因明显获益而早期终止试验和基于结果选择性报告结局。观察性研究的主要局限性包括使用不合适的对照及未能充分调整预后的不平衡。偏倚风险可因不同结果而异（如全死因死亡率的失访远少于生命质量的失访），许多系统评价都容易忽略这一点。在决定是否因偏倚风险而降低质量等级时，不管是随机试验还是观察性研究，作者不应采用对各个研究取平均值的方法。相反，对任何单个结果，当同时存在高、低偏倚风险的研究时，则应考虑只纳入较低偏倚风险的研究。

关键词 GRADE**；证据质量；偏倚风险；估计值的可信度；盲法；分配隐藏

要点

• 在GRADE方法中，如果相关证据来自高偏倚风险的研究，则随机试验（一开始定为高质量证据）和观察性研究（一开始定为低质量证据）质量等级均可能被降低。

• 不同结果的偏倚风险可能不同，如当每一结果由不同研究子集提供资料时（如死亡率由一些试验提供，生活质量由其它试验提供）。• 当前系统评价对指南的有用性常有限，原因在于系统评价是按研究对所有结果的偏倚风险进行分级，而不是按结果对所有研究的偏倚风险进行分级。

的第四篇，本文讨论降低证据质量级别的五类原因之一：研究的局限性（偏倚风险）。

2 因偏倚风险而降低证据质量

如果随机对照试验（RCT）和观察性研究在设计或实施上存在缺陷，则可引起误导性结果的额外风险（其他出版物称为“有效性”或“内部有效性”问题），即研究的局限性或偏倚风险。

3 随机试验的研究局限性

常影响RCT研究局限性的有关问题，读者可参考许多权威论述（见表1）。其中两点与GRADE构想很相符，包括关注结果的特异性（如对偏倚风险的关注不是单个研究，而是单个结果，且单个试验

[1,2]

）。或一系列试验的不同结果间质量可能存在差异

1 引言

本系列文章描述GRADE证据质量评级和推荐强度分级系统。前三篇文章探讨了构建问题和引入

GRADE方法来划分证据等级的过程，作为该系列

△ 原文见J Clin Epidemiol, 2011, 64(4): 407-415.

# GRADE系统由GRADE工作组开发。所列作者撰写并修订了该文章。在Journal of Clinical Epidemiology杂志的网站上有该系列文章所有贡献者的名录。

*通讯作者，Email: guyatt@mcmaster.ca

** 译者注：GRADE指推荐分级的评估、制定与评价

我们尤其强调表1中的3个标准：第一个标准即因获益而早期终止试验，最近才认识到该标准的重要性。第二个标准即选择性报告结果，近来也有证据显示[3,4]。而且，如何定位选择性报告结果属于哪类偏倚令人困惑。有学者可能直觉地认为应将其归为发表偏倚，而不是单个研究内的偏倚风险问题。最后，我们强调失访，因其常被误解。

但此前我们注意到另一个问题。近来的证据表明，与未实施盲法和未进行分配隐藏有关的偏倚在

2011 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

CJEBM• 456 •

中国循证医学杂志 2011, 11(4): 456～463

表 1 随机试验的研究局限性

1. 无隐蔽分组

招募受试者的人知道下一位受试者将被分到哪一组（或交叉试验中的哪一时期）（按星期几、出生日期或图表编号等来分配的“假”或“半”随机试验的主要问题）2. 未设盲

患者、照护者、记录结果者、裁定结果者或数据分析者，知道患者分配到哪一组（或交叉试验中目前正在接受的药物治疗）

3. 不完整报告患者和结局事件

优效试验中的失访和未遵从意向性治疗原则；或非劣效试验中的失访和未同时进行两种分析：仅分析坚持治疗者和分析所有可得结果数据的患者4. 选择性结果报告偏倚

不完整报告或不报告某些结果及基于结果的其它内容5. 其它局限性

• 因早期获益而终止试验

• 使用未经验证的结果测量方法（如病人报告的结果）• 交叉试验中的延滞效应

• 整群随机试验中的招募偏倚

主观结果的试验中可能更大[5]。系统评价员和指南制定者在因偏倚风险而作出降低证据质量的决策时应考虑此证据。

4 因获益而早期终止试验

理论考虑[6]、模拟[7]和经验证据[8]均表明因获益而早期终止试验会高估疗效。最近的经验证据表明，现实中通常的终止规则没有减少偏倚，尤其是少于500个事件的早期终止试验，且早期终止试验与真实情况的最佳估计（未早期终止的试验）的平均相对危险比是0.71[9]。

多数情况下，在因获益而早期终止的试验中，高估疗效的罪魁祸首是机遇，因而将早期终止作为偏倚来源之一有问题。但只要有早期终止的试验，尤其当其在Meta分析中占重要权重时，系统评价员和指南制定者应警惕明显高估疗效的可能。系统评价应对纳入和排除因获益而早期终止研究的结果进行敏感性分析，如果估计值明显有别，那些未纳入早期终止试验的估计应被认为更可信。当证据主要或只来源于因获益而早期终止的试验时，作者应推断，少于500个事件的试验中存在实质性的高估疗效的可能，少于200个事件的试验中则存在很大的高估疗效的可能[9]。

5 选择性报告结果

当作者或研究资助者在试验中选择性地报告

* 此处1.3SD即SMD=1.3；** 此处0.8 SD即SMD=0.8。

2011 中国循证医学杂志编辑部

www.cjebm.org.cn

论著 • 方法学研究

阳性结果与分析时，评论者称之为“选择性报告结果”。最近的证据表明，选择性报告结果的普遍存在，使干预效果常被高估 [4,10-13]。

如睾酮对低激素水平男性勃起满意度效果的系统评价[14]共检出4个合格试验，最大一项试验的结果仅报告“无统计学差异”，因此无法纳入Meta分析。来自于3个较小试验的数据表明疗效明显［1.3SD*，

95%CI（0.2，2.3）］。然而在该系统评价的作者最终获得最大那项试验的完整数据，并将其不太乐观的结果加入到Meta分析中后，Meta分析结果的效应尺度更小了且不再具有统计学意义［0.8SD**，

95%CI（–0.05，1.63）］[15]

。

Cochrane手册建议，表明不存在选择性报告的明确证据需要获得研究开始前制定的计划书[2]。下述情况则存在选择性报告：作者们承认他们未能报告预先指定的结果，或不完整地报告结果从而无法将其纳入Meta分析。如果研究报告未能纳入人们希望在该研究中看到的关键结果或报告的是合成的结果而不是各组成部分的结果，则应怀疑有报告偏倚的存在。

注意，在对证据群进行质量分级的GRADE构架中，怀疑有若干纳入研究存在发表偏倚可导致降低证据群的质量。如上述睾酮研究的例子，若作者没有获得缺失数据，他们原本应考虑降低证据群的质量级别，因大型研究中存在可疑的选择性报告。

6 失访

历史上，方法学家们有时建议一个武断的阈值作为可接受的失访率（如小于20%）。但特定失访率的意义变化很大，且取决于失访与事件发生数的关系。如若干预组和对照组的事件发生率分别为20%和40%，则两组均有5%的失访对偏倚风险几乎不存在任何威胁。但若干预组和对照组的事件发生率分别为2%和4%，对5%失访率的关注则要大得多。

用一般规则来表述，与干预组和对照组的事件发生率相比，失访比例越高，且干预组和对照组的差异越大，则偏倚风险越大。但即使失访率相对较高，也只有当失访数在两组间不平衡或两组间失访与事件发生可能性的关系不同时，才可能存在偏倚的影响。遗憾的是，我们无从知道失访与事件发生可能性的关系在干预组和对照组间是否不同，因此，与事件发生数有关的大量失访常引起严重偏倚风险的问题。

对该问题，连续性结果与分类结果在概念上是一致的：失访是否引起以下情况——对干预组与对

CJEBM

• 457 •

Methodology

表 2 观察性研究的研究局限性

1. 未能制定和使用合理的入选标准（对照人群的纳入）• 病例对照研究中匹配不足或匹配过度

• 队列研究中从不同的人群中选择暴露组和非暴露组2. 暴露和结局的测量均存在缺陷• 暴露的测量存在差异（如病例对照研究中的回忆偏倚） • 队列研究中暴露组和非暴露组的结果监测有差异3. 未能充分控制混杂

• 未准确测量所有已知的预后因素

• 未对预后因素进行匹配和/或在统计分析中未进行调

整 4. 随访不完整

照组失访者中结果差异的合理设想会对总的结果产生重要影响？当结果是二分类变量时，我们可以去检验有关失访者中事件发生率的各种假设；当数据是连续性的时候，我们也可以进行这样的敏感性分析，只是统计学模型的构建更具挑战性。

7 观察性研究中的研究局限性

对非随机研究方法学质量评估工具的系统评价已有200多个清单和工具[16-19]。

表2总结了体现这些清单内容的观察性研究的重要评价标准。与观察性研究局限性评价相关的判断通常很复杂，这里，我们提出评估偏倚风险时出现的两个关键问题：

7.1 病例系列缺乏内部对照的问题

理想情况下，观察性研究将选择同期对照，并尽可能使该对照组与干预组的不同之处仅在于不决定使用干预措施（通常是由病人或临床医生来作出这种决策）。研究者将用完全相同的方法登记和观察干预组和对照组病人，即采用所谓“内部对照” 的原型设计。

另一种方法是只研究接受干预的病人，即我们所说的“病例系列”的设计（也有人称为“单组队列”）。欲推断干预效果，病例系列仍必须参照对照组的结果。但许多病例系列中对照组结果的来源是隐性或不明确的。这样的含糊不清会严重影响干预组和对照组的预后相似性，且常会使证据质量从低降到极低级别。如在考虑低分子量肝素和未分离的肝素对孕妇的相对效应时，我们找到了孕妇使用前一个药物后出血发生率的系统评价[20,21]，但对后者没有直接比较。

因此，病例系列通常产生极低质量的证据，但也有例外。考虑这样一个问题：比较常规结肠镜检查与无筛查对结肠癌与镜检相关穿孔率的影响。此处，接受过结肠镜检查并有代表性的大量病人的病例系列就能提供高质量证据。当对照组发生率接近

CJEBM• 458 •

Chin J Evid-based Med 2011, 11(4): 456-463

零时，代表性病人的病例系列（也有人称为队列研究）可以提供某干预相关不良反应的高质量证据。不能把这些与单个病例报告混为一谈，后者报道暴露与罕见不良效应（如，已报告的与疫苗使用相关者）的关联。

7.2 预后不平衡的处理

观察性研究因暴露与非暴露人群的预后差异而存在偏倚风险，当两组来自同一时间、地点和人群时，偏倚风险减少。但所有观察性研究的有效性均受到预后不平衡的威胁。若已有研究未测量已知的重要预后因素，或测量得很糟，或未能在分析（通过匹配或统计学调整）中把这些因素考虑进去，系统评价员和指南制定者应考虑将该证据质量从低降到极低级别。

如一个使用大型管理数据库的队列研究表明，相对于二甲双胍，使用磺脲类药物或胰岛素的糖尿病患者与癌症相关的死亡风险增加[22]。

研究者因缺乏相关数据而不能对包括吸烟、癌症家族史、职业暴露、饮食史及污染暴露等主要预后变量进行相应调整。因此，该研究及其他类似不能对主要预后变量进行调整的研究只能为降血糖药与癌症死亡的因果关系提供极低质量的证据。

8 GRADE方法评估单个研究偏倚风险的局限性

与其他大量方法一样，GRADE方法评估偏倚风险有两个基本的局限性。首先，支持这一标准的经验证据有限——欲展示符合与不符合特定标准研究的系统差异这样的尝试得到了不一致的结果。其次，标准的相对权重尚不确定。

GRADE方法不如其它方法全面，相对于完整性，它更强调简易与简约。GRADE方法没有对偏倚风险给出一个量化的等级评定。尽管量化评估有其优点，我们和Cochrane协作网的方法学家们一样，不愿给出偏倚风险评分，因为这种评分的本性必须对与单个条目有关的偏倚的相对程度提出有问题的假设，同时该评分未能考虑各条目所处的上下文关系。

9 总结研究局限性必须是结果特异的

不同来源偏倚的重要性在不同结果间可能存在差异。因此，在某单个研究中，某结果的证据质量可能高于另一结果。如类固醇治疗急性脊髓损伤的随机对照试验不仅评估了全因死亡率，还基于详细的体格检查评估了运动机能[23-25]。

对结果评价者设 2011 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志 2011, 11(4): 456～463

表 3 随机试验研究局限性的总结

偏倚风险程度

研究内的偏倚风险

研究间的偏倚风险

研究间的解释*

论著 • 方法学研究

研究间总结实例

无严重局限性，不降级所有关键标准（见表1）均为低偏大多数信息来自低

倚风险偏倚风险的研究有严重局限性，降低1

级（即质量从高降到中

等级别）

有极严重的局限性，降

低2级（即从高降到低

或从中等降到极低）

一个标准存在重要局限性，或多

个标准存在一定的局限性，足以降低对效应估计值的把握度一个或多个标准存在重要局限性，足以大幅降低对效应估计值的把握度

大多数信息来自中等偏倚风险的研究大多数信息来自高偏倚风险的研究

高质量证据：真实效应接近β-阻滞剂降低心力衰竭患者

[26]

估计效应的病死率证据质量由高降到中等：真阿莫地喹与SP联用较之于单实效应可能接近估计效应，用SP，可能减少疟疾患者的

[27]

但仍可能有很大的不同治疗失败证据质量由高降到低：真实与保守治疗相比，开放式椎间效应可能大大不同于估计盘切除术可能减少腰椎间盘

[28]

效应突出症患者1年后的症状

* 这种解释假定不存在需要因不精确、不一致、间接性和发表偏倚而降低证据质量等级的问题；SP ：周效磺胺-乙胺嘧啶。

表 4 开放式椎间盘切除术与保守治疗相比的质量评价（Gibson等[28]）

质量评价

例数（研究数）

设计

研究的局限性

不一致性

间接性

不精确性

发表偏倚

/无效结果结局指标：外科医生评定的1年期不显著 126（1）126（1）126（1）

RCTRCTRCT

有极严重的局限性*有极严重的局限性*

不相关不相关

无严重的间接性无严重的间接性

严重的不精确性△严重的不精确性△

不太可能不太可能不太可能

/无效结果结局指标：外科医生评定的4年期不显著 /无效结果结局指标：外科医生评定的10年期不显著

不相关无严重的间接性严重的不精确性△有极严重的局限性*

* 隐蔽分组不充分，以及外科医生非盲且采用未经验证的方法而进行的评价；△ 宽的可信区间且事件数很少（16或更少）。

盲与死亡率没有太大关系，但对运动机能评估却至关重要。因此，此例中，若指南委员会所依据的原始研究未对结果评价者设盲，委员会可能会将全因死亡率的证据分类为无严重研究局限性，而把运动机能相关证据的级别降低一个水平，基于其严重的研究局限性。

如表3所示，当证据群的大多数研究达到了偏倚最小化标准后，高质量证据才可及。如22个关于

β受体阻滞剂对心力衰竭患者病死率影响试验中的大多数，可能或肯定采用了分配隐藏，至少对一些关键组别的全部参与者实施了盲法，且对随机后患者的随访工作几近完整[26]。

当最好的证据来源于中等质量的单个研究时，GRADE认为该证据群为中等质量。如我们不能确信，治疗恶性疟疾时阿莫地喹与周效磺胺-乙胺嘧啶联用比周效磺胺-乙胺嘧啶单用更能减少治疗失败，因为周效磺胺-乙胺嘧啶的表观优势对3个研究中的2个研究失访者事件发生率的假设很敏

[27]

。感

10 总结偏倚风险需考虑到所有相关证据

探讨某特定结果的每一研究其偏倚风险均存在一定程度的差异。系统评价员和指南制定者必须作出一个总体判断，考虑到所有证据，某一结果的证据质量是否确保了基于研究局限性而降低质量级别的合理性。

表3显示了随机对照试验研究局限性的

GRADE方法构架。其中第二列显示的是应用于单个研究的方法，其余各列涉及总体证据。大部分或所有关键标准都符合且不符合的部分无关紧要时，单个试验达到低偏倚风险。但对关键指标不符合的研究而言——即有一个不符合的指标对点估计值（系统评价中）或决策（指南中）非常重要时——这些研究提供的证据质量有限。当一个或多个重要局限大幅降低了点估计值的可信度时，证据群只能为治疗效应量的推断提供有限的支持。

外科手术与保守治疗在腰椎间盘突出患者管理中的应用为我们提供了因随机对照试验中偏倚风险我们不能确定一而导致其评级下降两级的实例[28]。

年或更久以后开放式椎间盘切除术对缓解症状的益处，因为开放式椎间盘切除术与保守治疗比较的一个试验存在很严重的局限性，该试验两组中均无大量早期的病例交叉。该试验存在的局限性包括：分配隐藏不充分及由有潜在偏倚可能的评估者（外科医生）使用未经验证的评价工具（见表4）进行非盲法评估。

2011 中国循证医学杂志编辑部

www.cjebm.org.cn

CJEBM• 459 •

Methodology

11 现有系统评价按研究来总结研究局限性时常存在局限

评价某一结局指标的总体证据质量时，系统评价员和指南制定者必须考虑和总结来自多个研究的所有证据的研究局限性。对指南制定者，使用现有的系统评价可能是解决这一问题最有效率的方法。

遗憾的是，系统评价一般不会涉及所有重要结局指标，通常侧重于获益而忽略危害。如某人需要分别寻找单独的系统评价来评价β-阻滞剂对病死率[26]和生活质量[29]的影响。没有系统评价涉及β-阻滞剂对心力衰竭患者的毒性。

系统评价员按研究对所有结局指标而非针对单个结果进行质量评价的习惯做法进一步限制了现有系统评价对指南制定者的有用性。当系统评价员用概括性指标来整合不同质量标准（如分配隐藏、盲法、失访）以提供单独评分时，该方法的问题更多。这些指标常存在局限性，因为他们侧重于研究报告的质量而非研究的设计与实施[30]。

此外，这些指标常不可靠，且其与结局指标的关系没有单个质量要素与结局指标的关系大[31-33]。

这些问题的产生，至少部分因为计算总评分不可避免地牵涉到给不同标准条目赋以武断的权重。

最后，涉及研究局限性单个要素的系统评价常不够全面，未能使评估研究局限性所需的评判透明化。这些评判常具有挑战性，至少部分因为报告不完整：仅仅由于未报告防止偏倚并不意味着其被忽略[34,35]。

因此，尽管系统评价在查找相关原始研究时极其有用，若指南委员会成员或其代表希望确保对所有相关结局指标的研究局限性作出准确评级，则通常必须评价单个研究。随着系统评价员越来越多地采用GRADE方法（尤其是Cochrane系统评价员这样做，并将其与Cochrane偏倚风险工具结合使用），这种情况将会改善。

12 只有一个RCT时，我们该怎么做

将单个RCT定为高质量证据，很多人觉得欠妥。鉴于在许多例子中，最初的阳性报告没有得到随后调查研究的支持，这种不安是合理的。另一方面，仅有单个研究时自动降低质量等级则是不合理的。单个大样本、严格设计与实施的多中心RCT可提供高质量证据。当解决某特定问题只有一个RCT时，GRADE建议尤其要仔细审查所有相关问题（偏倚风险、精确度、直接性及发表偏倚）。

CJEBM• 460 •

Chin J Evid-based Med 2011, 11(4): 456-463

13 从Cochrane单个研究中的偏倚风险表转

变到所有研究的证据质量评级

将针对每一单个研究的6条偏倚风险条目转变到因偏倚风险而降低一组涉及某特定结果研究的证据质量等级面临诸多挑战。我们建议遵从如下原则：

第一，决定总体证据质量时，不能取所有研究的平均水平（如若一些研究无严重局限性，一些有严重局限性，另一些有极严重局限性时，不能因严重局限性的平均水平而自动将质量等级降低一级）。而应明智地考虑各研究的贡献，并按一般性指导原则，侧重于高质量研究（后面会解释），这样做才是合理的。

第二，这一明智考虑需评估每个试验对估计效应尺度的贡献程度。这一贡献通常反映了样本含量大小和结局事件发生数，事件数多的大样本试验贡献较大，事件数更多的更大样本试验贡献更大。

第三，降低证据质量等级时应保守。即，必须确信大多数可得证据存在实质性偏倚风险时才能因偏倚风险而降低证据质量等级。

第四，应结合其他局限性考虑偏倚风险。如系统评价员处于必须对两个质量问题（偏倚风险及精确度）紧急作出精确判断的情形时，我们建议至少降低其中一个的质量等级。

第五，尽管有上述4个原则，系统评价员还将面临作出精确判断的挑战。他们不仅应承认自己处于这样的情形，且应清楚说明为什么他们认为情况就是这样，并阐明他们最终判断的理由。

14 原则的应用

在一个类黄酮治疗痔疮相关疼痛和出血的系统评价[36]中，

针对症状持续这一主要结果，多数试验没有提供足够信息来确定随机是否被隐蔽，大部分试验违反了意向性治疗原则，且没有提供允许进行恰当分析的数据（见表5），无一研究使用经验证的症状测量工具。另一方面，多数作者将其试验描述为双盲，虽然分配隐藏和盲法概念不同，但药物盲法试验很可能实施分配隐藏[34]（见表5）。由于调查问卷看起来简单且透明，且由于研究采用了盲法，我们将不会急于认为缺乏验证引入了严重偏倚风险。

鉴于这些研究局限性，有人可能会考虑把重点放在最高质量的试验上。但这样做将丧失足够的精确度（需要因不精确性而降低质量等级），同时，试

2011 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志 2011, 11(4): 456～463

表 5 类黄酮治疗痔疮患者研究中症状测量的偏倚风险

纳入研究

†

论著 • 方法学研究

随机方法

充分

计算机产生随机数

隐蔽分组盲法

失访* / 观察到的IT原则

其他

或符合方案集（PP）分析

经验证的未

症状测量未经验证的症状测量

DimitroulopoulosD,2005

Misra MC, 2000

3% /PP密闭不透光的信封描述为单盲

盲照护者、患者和数据收集者

充分

计算机产生随机数充分清楚不不清楚

充分

密封不透光的信封

充分盲患者和医生

密闭不透光的信封描述为双盲

外观相同的安慰剂充分

密闭不透光的信封不清楚不清楚

充分

密闭不透光的信封不清楚不清楚

盲患者、研究医师、数据管理者、统计学家和作者不清楚

描述为双盲不清楚盲各方

2% /PP 6% /PP 12% /IT 11%/PP 0% / IT 12% /PP12% /PP

GodebergeP,1994Cospite M, 1994Chauvenet-M, 1994Ho Y-H, 2000

未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量未经验证的症状测量

Th anapongsathorn W, 不清楚 1992

Titapant V, 2001

不清楚

描述为双盲不清楚

描述为双盲

外观相同的安慰剂不清楚

描述为双盲不清楚描述为双盲

外观相同的安慰剂盲医生和患者描述为双盲

外观相同的安慰剂医生和患者盲

描述为双盲

外观相同的安慰剂盲医生和患者描述为双盲盲医生

外观相同的安慰剂

Wijayanegara H, 1992Annoni F, 1986

不清楚不清楚

3% /PP

不确定/不清楚

Th orp RH, 1970不清楚不清楚 20% /PP

Clyne MB, 1967Sinnatamby CS, 1973Trochet JP, 1992按照随机数字表连续

对瓶子编号不清楚

按3个区组随机（方法不清楚）

不清楚不确定/PP

不清楚不清楚

53% /PP不确定 /IT

任何研究中类黄酮组与对照组间失访率无重要差异；IT：观察到的意向性治疗原†：表中参考文献的完整引用参见Alonso-Coello et al.[36]；*：

#：则；数据由作者提供；Bracken

可能非常大的偏倚PointillartOtani

无偏倚

0100

明智而博学的系统评价员之间存在判断不一致的可能，这不仅是个理论上的问题。一些RCT已评价了压力渐变长袜在何种程度上可预防长途飞行旅客的深静脉血栓形成（DVT）。Cochrane系统评价作者认为这些研究为DVT预防提供了高质量证

[37]

。与此相反，一组参与指南制定的血栓形成专据

100100

图 1 研究类固醇对急性脊髓损伤患者运动

功能效果的3个RCT的有效性

家认为，由于使用不可靠的方法来诊断DVT，且未即使经过直接实施盲法，这些证据是低质量的[38]。联系与讨论，双方都坚持自己的立场——仍可能每一方都是正确的。

3个RCT[23-25]研究了24小时大剂量皮质类固醇对急性脊髓损伤患者运动功能的作用，这说明了另一个合并原则。尽管局限性的程度实际上是连续的（如图1所示），GRADE通过将这些研究或任何其他研究分类为“无严重局限性”、“有严重局限性”、或“有极严重的局限性”（如表3所示），从而简化

CJEBM

• 461 •

验的质量没有解释结果的变异（即方法学较好与较差的试验的效应尺度是相似的）。上述两个考虑支持基于所有RCT结果作出估计。

我们认为这代表了一种临界情形，这种情况下因偏倚风险而降低或不降低证据等级都是合理的。这说明GRADE最大的价值不在于保证结论的一致性，而在于其要求明晰而透明的判断。但单独考虑这些问题，并按照上述原则，我们会倾向于不因偏倚风险而降低质量等级。

2011 中国循证医学杂志编辑部

www.cjebm.org.cn

Methodology

了这一过程。

3个试验中的第1个试验（图1中的Bracken）包括127个损伤8小时内得到治疗的患者，通过中央随机确保分配隐藏，几乎可以肯定对患者、临床医生和运动功能测量者实施了盲法，随访1年患者失访率为5%[23]。这项RCT的缺陷很小，足以将其归为“无严重局限性”。

第2个试验（图1中的Pointillart等[25]）不大可能实施了分配隐藏，对结果评价者（但不是对患者或医生）实施了盲法，106例患者中仅有1例失访。这里，证据质量处于一个中间范围，将其归为“无严重局限性”或“严重局限性”可能都是合适的。第3个试验（图1中的Otani等[24]）包括了158例患者，几乎可以肯定未分配隐藏，未实施盲法，患者失访率达26%，且类固醇组的失访人数远多于对照组。第3个试验可能最好将其归为“非常严重的局限性”。

考虑这3个随机对照试验对运动功能这一结果，是否应因设计和实施而降低证据质量？如果我们只考虑前两个试验，回答是否定的。因此，系统评价作者必须决定要么排除第三个试验（从而只包括局限性小的试验）；要么保留之，基于总体上为低偏倚风险的判断（因为大多数证据来自局限性小的试验），而不管存在极严重局限性的该试验对总体效应估计的贡献。该实例说明，取总体研究的平均水平将不是正确的方法。

15 记录有关研究局限性的判断

GRADE最大的优点是其对降低证据质量因素的清楚分类及其判断的透明化。但这种透明化需要仔细的判断文件。使用偏倚风险表有助于确保透明化，该表总结了用于评价各研究各结果研究局限性的关键标准。

表5是这种表的一个示例。注意，该表只侧重了一个结果：症状。若正如此例仅有一个重要结果，或对每个重要结果的每个质量标准都是一样的，则每个研究仅需要一行。若每个结果的质量标准差别很大则需要单独一行。如结果可能在盲法（如在外科试验中，患者完成调查问卷以测量健康相关生活质量，可能不需要对其实施盲法；而归因死亡率的评判者可能需对其实施盲法）或失访（如生活质量的失访要多于全死因死亡率的失访）上不同。

系统评价作者和指南制定者可在“质量评价”表中总结他们横贯研究的评价，以充分保证其判断的透明化（表4）。脚注表明了基于研究的局限性（或

CJEBM• 462 •

Chin J Evid-based Med 2011, 11(4): 456-463

可在表中格子里非常简单地概括关键信息）而作出将证据质量从高降到低的决定背后的理由。此例还考虑了不精确性的问题，该局限性进一步使证据质量从低降到极低。我们将在本系列第6篇文章中描述作出有关不精确性（随机误差风险）判断的指导。

参考文献

1 Th e Users' Guides to the Medical Literature: A Manual for Evidence-Based Clinical Practice (2nd ed). In: Guyatt G, Rennie D, Meade M,

Cook D, editors. 2nd ed. New York, NY: McGraw-Hill; 2008.

2 Higgins JP, Altman D. Assessing the risk of bias in included studies.

In: Higgins J, Green S, Editors. Cochrane Handbook for Systematic Reviews of Interventions 5.0.1. Chichester, UK: John Wiley & Sons: 2008.

3 Vedula SS, Bero L, Scherer RW, et al. Outcome reporting in indus-try-sponsored trials of gabapentin for off -label use. N Engl J Med, 2009, 361(20): 1963-1971.

4 Mathieu S, Boutron I, Moher D, et al. Comparison of registered and

published primary outcomes in randomized controlled trials. JAMA, 2009, 302: 977-984.

5 Wood L, Egger M, Gluud LL, et al. Empirical evidence of bias in

treatment effect estimates in controlled trials with different inter-ventions and outcomes: meta-epidemiological study. BMJ, 2008, 336(7644): 601-605.

6 Pocock SJ. When (not) to stop a clinical trial for benefit. JAMA,

2005, 294(17): 2228-2230.

7 Pocock SJ, Hughes MD. Practical problems in interim analyses,

with particular regard to estimation. Control Clin Trials, 1989, 10(4 Suppl): 209S-221S.

8 Montori, VM, Devereaux PJ, Adhikari NK, et al. Randomized trials

stopped early for benefi t: a systematic review. JAMA, 2005, 294(17): 2203-2209.

9 Bassler D, Briel M, Montori VM, et al. Stopping randomized trials

early for benefi t and estimation of treatment eff ects: systematic re-view and meta-regression analysis. JAMA, 2010, 303(12): 1180-1187.10 Furukawa TA, Watanabe N, Omori IM, et al. Association between

unreported outcomes and effect size estimates in Cochrane meta-analyses. JAMA, 2007, 297(5): 468-670.

11 Chan AW, Altman DG. Identifying outcome reporting bias in ran-domised trials on PubMed: review of publications and survey of authors. BMJ, 2005, 330(7494): 753.

12 Chan AW, Hróbjartsson A, Haahr MT, et al. Empirical evidence for

selective reporting of outcomes in randomized trials: comparison of protocols to published articles. JAMA, 2004, 291(20): 2457-2465.13 Chan AW, Krleža-Jerić K, Schmid I, et al. Outcome reporting bias

in randomized trials funded by the Canadian Institutes of Health Research. CMAJ, 2004, 171(7): 735-740.

14 Bolona ER, UragaMV, Haddad RM, et al. Testosterone use in men

with sexual dysfunction: a systematic review and meta-analysis of ran-domized placebo-controlled trials. Mayo Clin Proc, 2007, 82(1): 20-28.15 Sinha M, Montori VM. Reporting bias and other biases aff ecting sys-tematic reviews and meta-analyses: a methodological commentary.

Expert Rev Pharmacoeconomics Outcomes Res, 2006, 6(1): 603-611.16 Deeks JJ, Dinnes J, D’Amico R, et al. Evaluating non-randomised

intervention studies. Health Technol Assess, 2003, 7(27): iii-x, 1-173.17 West S, King V, Carey TS, et al. Systems to rate the strength of

scientifi c evidence [Evidence report/technology assessment no 47]. AHRQ Publication No 02-E016. Rockville, MD: Agency for Health- 2011 Editorial Board of Chin J Evid-based Med

www.cjebm.org.cn

中国循证医学杂志 2011, 11(4): 456～463

care Research and Quality; 2002.

Proposed Evaluation Tools for COMPUS: assessment, November 29, 2005. Ottawa, Canada: Canadian Coordinating Ofﬁce for Health Technology; 2005.

Sanderson S, Tatt ID, Higgins JP. Tools for assessing quality and susceptibility to bias in observational studies in epidemiology: a systematic review and annotated bibliography. Int J Epidemiol, 2007, 36(3): 666-676.

Greer IA, Nelson-Piercy C. Low-molecular-weight heparins for thromboprophylaxis and treatment of venous thromboembolism in pregnancy: a systematic review of safety and effi cacy. Blood, 2005, 106(2): 401-407.

Sanson BJ, Lensing AW, Prins MH, et al. Safety of low-molecular-weight heparin in pregnancy: a systematic review. Th romb Haemost, 1999, 81(5): 668-672.

Bowker SL, Majumdar SR, Veugelers P, et al. Increased cancer-relat-ed mortality for patients with type 2 diabetes who use sulfonylureas or insulin. Diabetes Care, 2006, 29(2): 254-258.

Bracken MB, Shepard MJ, Collins WF Jr, et al. Methylprednisolone or naloxone treatment aft er acute spinal cord injury: 1-year follow-up data. Results of the second National Acute Spinal Cord Injury Study. J Neurosurg, 1992, 76(1): 23-31.24

Otani K, Abe H, Kadoya S. Benefi cial eff ect of methylprednisolone sodium succinate in the treatment of acute spinal cord injury. Sekit-sui Sekizui, 1994, 7: 633-647.

Pointillart V, Petitjean ME, Wiart L, et al. Pharmacological therapy of spinal cord injury during the acute phase. Spinal Cord, 2000, 38(2): 71-76.

Brophy JM, Joseph L, Rouleau JL. Beta-blockers in congestive heart failure. A Bayesian meta-analysis. Ann Intern Med, 2001, 134(7): 550-560.

McIntosh H, Jones K. Chloroquine or amodiaquine combined with sulfadoxine-pyrimethamine for treating uncomplicated malaria. Cochrane Database Syst Rev, 2005, (4): CD000386.

Gibson J, Waddell G. Surgical interventions for lumbar disc pro-lapse. Cochrane Database Syst Rev, 2007, (2)10. 1002/14651858. CD001350.

Dobre D, van Jaarsveld CH, deJongste MJ, et al. Th e eff ect of beta-blocker therapy on quality of life in heart failure patients: a system-atic review and meta-analysis. Pharmacoepidemiol Drug Saf, 2007, 16(2): 152-159.

2011 中国循证医学杂志编辑部www.cjebm.org.cn

论著 • 方法学研究

30 Moher D, Jadad AR, Nichol G, et al. Assessing the quality of ran-domized controlled trials: an annotated bibliography of scales and checklists. Control Clin Trials, 1995, 16(1): 62-73.

31 Schulz KF, Chalmers I, Hayes RJ, et al. Empirical evidence of bias.

Dimensions of methodological quality associated with estimates of treatment eff ects in controlled trials. JAMA, 1995, 273(5): 408-412.32 Emerson JD, Burdick E, Hoaglin DC, et al. An empirical study of the

possible relation of treatment diff erences to quality scores in con-trolled randomized clinical trials. Control Clin Trials, 1990, 11(5): 339-352.

33 Juni P, Witschi A, Bloch R, et al. Th e hazards of scoring the quality

of clinical trials for meta-analysis. JAMA, 1999, 282(11): 1054-1060.34 Devereaux PJ, Choi PT, El-Dika S, et al. An observational study

found that authors of randomized controlled trials frequently use concealment of randomization and blinding, despite the failure to report these methods. J Clin Epidemiol, 2004, 57(12): 1232-1236.35 Soares HP, Daniels S, Kumar A, et al. Bad reporting does not mean

bad methods for randomised trials: observational study of ran-domised controlled trials performed by the Radiation Th erapy On-cology Group. BMJ, 2004, 328(7430): 22-24.

36 Alonso-Coello P, Zhou Q, Martinez-Zapata MJ, et al. Meta-analysis

of flavonoids for the treatment of haemorrhoids. Br J Surg, 2006, 93(8): 909-920.

37 Clarke M, Hopewell S, Juszczak E, et al. Compression stockings for

preventing deep vein thrombosis in airline passengers. Cochrane Database Syst Rev, 2007, (3): CD004002.

38 Geerts WH, Bergqvist D, Pineo GF, et al. Prevention of venous

thromboembolism: American College of Chest Physicians Evidence-Based Clinical Practice Guidelines (8th Edition). Chest, 2008, 133(6 Suppl): 381S-453S.

李幼平总审校杨晓妍审校李鸿浩李玲译

收稿日期：2011–03–25 修回日期：2011–03–28

本文编辑：蔡羽嘉

CJEBM• 463 •

GRADE指南__证据质量分级_研究的局限性_偏倚风险_

相关内容

热门内容