The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018

您所在的位置：网站首页 › 糖尿病统计学分析报告怎么写的呀 › The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018

The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018

2024-07-12 03:47| 来源: 网络整理| 查看: 265

图1 近年来网状Meta分析论文发表情况。(a)显示了2017年Petropoulou等评估的2005—2014年利用网状Meta分析比较至少4种治疗措施的系统性综述应用性论文的发表情况9。其中，2005年以前发表了6篇，截至2015年4月发表了43篇。(b)显示了2016年Efthimiou等评估的2005—2014年，发表的有关网状Meta分析的方法学、指导性及方法学经验性评价的论文情况10。以上内容可参考www.zotero.org/groups/wp4_-_network_meta-analysis。

在此，我们依据以前在BMJ上发表的文章，来解释多元Meta分析及网状Meta分析的重要概念、方法及假设11-13。我们首先描述多元Meta分析在多重结局评价中的效应关联，然后讲述网状Meta分析比较多种干预措施时间接证据的使用。此外，本文重点强调如何使用统计指标（BoS及E）来量化关联效应和间接证据所提供额外信息，同时，也涉及重要假设、挑战及最新的拓展，并辅以真实的案例进行解释。

关联效应及多重结局的多元Meta分析

很多临床研究常评价多个结局变量，这本身无可非议。而这些变量间很少相互独立，每个变量或多或少承载着其他变量的信息。如果我们可以使用这些信息，就该去使用。

——Bland 201114

很多临床结局彼此之间具有关联性，例如，高血压患者的收缩压与舒张压，偏头痛患者疼痛程度与恶心，以及肿瘤患者无进展生存与总体生存。这种个体水平上的关联性会导致群体（研究）水平效应间的关联。例如，在降压治疗的随机对照试验中，收缩压及舒张压的治疗效果评价很可能高度关联。同样的，在肿瘤队列研究中，生物标记物的预后效应评价与疾病无进展生存及总体生存之间呈高度关联。关联效应还会在很多其他的情况下发生，比如，当存在多个时间点（纵向数据）15、多个生物标记物与遗传因素之间相互关联16、多个调整了重叠因素的效应估计量17、多个测量准确性的指标（如有关诊断或预测模型）18，以及不同的测量方式（如不同疼痛程度的评分，或来自不同实验室测量技术的生物标记物参考值）19。本文中，我们将这些情况统称为多重相关结局。

正如Bland14提到的，结局间的关联可能含有丰富的信息，在Meta分析中应充分利用。多元Meta分析通过联合分析所有互相关联的结局来完成，它假设各关联结局服从多元正态分布7-20，是标准（单结局）Meta分析方法的推广，关于标准Meta分析的内容已在既往的BMJ上的论文进行过描述12。需要注意的是，该方法并未把多结局整合成单一结局，而是针对每个结局仍产生不同的汇总结果，但结局之间的关联性得到了整合。与分别对每项结局进行单因素Meta分析相比，多元Meta分析有两大优势。第一，在考虑了每个结局之间关联性的情况下，所有结局的数据都可以得到利用；第二，可使未报道所关注结局的研究也纳入其中21。这样就可以使更多研究及证据纳入到分析中，进而产生更精确的结论[更窄的可信区间（CI）]。附件1（见bmj.com）提供了更详尽的技术及软件操作选项22-25。下面，我们通过两个实例来解释这一重要概念。

例1：黄体酮对子宫内膜癌患者肿瘤特异生存的预后效果

在子宫内膜癌案例中，11项研究中（涉及1 412例患者）未提供肿瘤特异生存的预后结果，而是提供了无进展生存结果。在对肿瘤特异生存进行传统的单因素Meta分析时，就会简单地舍弃了这11项研究，但在多元Meta分析中由于无进展生存及肿瘤特异生存有较强的正相关性（约0.8），这11项研究得以保留。这两种方法所得到的汇总结果差异较大，正如图2中显示肿瘤特异生存情况的森林图所示。对肿瘤特异生存的单因素Meta分析仅纳入提供了直接证据的6项研究，汇总风险比（HR）为0.61（95% CI 0.38~1.00；I2=70%），CI刚好跨越无效值。纳入17项研究的多元Meta分析得出的肿瘤特异生存的汇总HR为0.48（95% CI 0.29~0.79），具有较窄的CI，为黄体酮对肿瘤特异生存的预后作用提供了较强的证据。后者分析的结果正如预期那样与无进展生存的预后作用更接近（汇总HR为0.43，95% CI0.26~0.71，结果来自于多元Meta分析）。

图2 黄体酮对子宫内膜癌患者肿瘤特异生存的预后作用的单因素及多元Meta分析汇总结果森林图。肿瘤特异生存及无进展生存的多元Meta分析应用了Rileyd等的方法，通过限定性最大似然估值来处理研究关联的缺失26。单因素及多元Meta分析的异质性相似（I2=70%）。CI：可信区间。

例2：血浆纤维蛋白原浓度作为心血管疾病的危险因素

纤维蛋白研究合作组利用31项研究数据检验血浆纤维蛋白原浓度是否为心血管疾病的独立危险因素17。所有31项研究均可得到部分调整的纤维蛋白原HR值，即调整常见的主要危险因素，包括年龄、吸烟、体质指数（BMI）及血压等。然而，其中仅有14项研究对纤维蛋白原HR值进行了更全面的调整，调整因素还包括胆固醇水平、酒精消耗、甘油三酯水平及糖尿病。对这14项研究中的部分及全面调整估计值绘制散点图（图3），发现两者之间存在很强的正相关（接近1，如近乎完美的线性相关）。

图3 部分调整与"全面"调整效应风险比（纤维蛋白原与心血管疾病发生率的关系）的对数值之间可见强关联（线性相关）。每个圆圈的大小与全面地调整风险比估值对数的精确度呈比例（方差的倒数）（如较大的圆圈代表更精确的研究估计值）。每项研究分别从Cox回归中计算风险比，表示纤维蛋白原水平增加1 g/L时对心血管疾病发生率的影响。

对来自14项研究的直接证据进行标准（单因素）随机效应Meta分析后，得到了汇总的全面调整HR值1.31（95% CI 1.22~1.42；I2=29%），表明纤维蛋白原与心血管疾病的相关性，即纤维蛋白原水平平均每增加1 g/L，心血管疾病的相对风险增加31%。然而，在多元Meta分析中，可整合31项研究中所有部分调整与全面调整的信息，此时就会增加另外17项研究（>70 000例患者），从而对强关联性加以利用（接近1）。其结果与上述的全面调整汇总风险比相等（1.31），但95%CI更精确（1.25~1.38），这主要是因为额外获得的信息（附件2森林图，见bmj.com）。

间接证据与多重治疗的网状Meta分析

现在我们来讲述对多重治疗方式的评价。仅用直接证据来评定某一特定治疗比较（例如治疗A比治疗B）的Meta分析称为成对Meta分析（pairwise Meta-analysis）。当不同试验中的治疗方案不一样时，这种分析方式会大大减少每个Meta分析所包含的试验数目，并且难以正式地比较2种以上的治疗方法。这个问题可通过网状Meta分析解决，它不仅充分利用了间接证据，还可以同时整合所有相关试验22,27-28。例如，在一项评估了3种治疗方法（A、B和C）的网状meta分析中，假设A对B的相对治疗效果（即治疗对照）是主要关注的比较，有的试验会直接比较治疗A与B；而有的试验是比较治疗A与C或比较治疗B与C，这类试验中没有直接比较治疗A与B，不能提供治疗A与B效果比较的直接证据。但治疗A与B比较的间接证据仍可以通过所谓"一致性"假设从这些试验中获得，即无论治疗如何比较，在所有试验中有如下等式：

A与B对比的效应值（treatment contrast）=（A与C比较的效应值）-（B与C比较的效应值）

其中效应值可以是对数相对风险（log RR）、对数比值比（log OR）、对数HR或平均差等。这种关系任何同时研究A、B和C三种治疗的随机试验中都始终成立。然而，当临床和方法学特征（如研究质量、随访时间、患者特点）在每个子集试验（这里指治疗A比B、A比C、B比C试验）中相似时，那么这种关系（平均）在每一子集试验中仍然成立。在这种情况下，治疗A和B的效果不仅可以通过比较治疗A与B试验的直接证据中得到，也可以通过比较仅有治疗A和C的试验和仅有治疗B和C的试验的间接证据中推断出来（图4）。

图4 比较治疗A与B的直接和间接证据的图像表现（改编自Song等201129）

根据一致性假设和可获得数据的类型，可有多种网状Meta分析模型的选择。如果每项试验只涉及某2种治疗（即一种治疗比较），那么最简单的方法就是标准的Meta回归分析，它可以对每一种治疗相对于共同参照治疗的效应值进行建模。参照治疗的选择是任意的，对Meta分析的结果没有任何影响。这可以扩展到多元Meta回归，它适用于具有3个或3个以上治疗组的试验（通常称为多臂试验）30-31。为了得到二分类结果，常见的是使用logistic回归来直接对每个治疗组的样本量和事件发生数进行建模，而不是对治疗效果直接建模。类似的，线性回归和泊松回归可用于直接对试验中每个组中的连续结果和发生率进行建模。不管哪种建模方法，都需要保持试验内的随机性和患者的分组30，研究间的异质性需采用随机效应模型来控制12。补充材料1（见bmj.com）给出了网状Meta分析的更多技术细节（和软件选择），之前也有文章对其统计学方面作了更全面的解释30。

网状Meta分析所得到的是每个治疗相对于所选参照治疗的汇总效应值。然后根据一致性关系可得到其他比较的结果。例如，如果治疗C在一个二分类结果的网状Meta分析中为参照治疗，那么治疗A和B的汇总log OR，就是治疗A和C的汇总log OR与治疗B和C的汇总log OR之间的差值。我们现在通过一个例子说明一些重要的概念。

例3：急性心肌梗死后8种溶栓剂治疗的比较

这项Meta分析1的目的是评估8种不同的溶栓剂治疗在降低30~35天病死率的相对疗效。为方便起见，这些治疗标记为A至H（治疗全称见图5）。Caldwell等曾在BMJ中发表过包含其中7项治疗的网状Meta分析13，我们的研究进一步扩展了这项工作。

图5 评估8项溶栓剂治疗（标为A~H）对急性心肌梗死患者30~35天病死率影响的28个试验的直接比较网状图。每个点（圆圈）表示不同的治疗方法，其大小与涉及该治疗的试验数量成正比。连接两个点的线的宽度与这2个治疗直接比较的试验数量成正比（该数字显示在线旁）。没有线直接连接的2个点（例如治疗C和D）表明没有试验直接比较2个相应治疗。A：链激酶；B：速效阿替普酶（accelerated altepase）；C：阿替普酶；D：链激酶+阿替普酶；E：替奈普酶；F：瑞替普酶；G：尿激酶；H：抗立止血（anti-streptilase）。

这8种治疗方法可形成28对比较，然而试验网络（图5）显示只有13对在至少1项试验中被直接报告，其中试验网络中每个点代表特定治疗，当至少有一个试验直接比较了2个相应治疗时，这2个点才会由线段连接起来。例如，如图可知有8项试验中存在治疗C与A的直接比较，而仅有1项试验中对治疗F与A进行了直接比较。由于每个治疗和每对治疗组之间获得的直接证据数量不同，仅使用标准（单变量）成对Meta分析来比较这8项治疗是存在严重问题的。

因此，通过每个治疗组的患者数和30~35天病死率，我们利用多元随机效应Meta回归模型来进行网状Meta分析可得到从治疗B至H对于治疗A的汇总OR，及其他治疗比较的OR28,31。利用网络中的直接证据和借助一致性假设得到的间接证据，可使这28项试验全部纳入，且8种治疗方法可同时进行比较。图6和补充材料3（见bmj.com）显示参照组的选择不改变结果，有些治疗之间的比较结果受间接证据的影响较大。例如，在包含28项试验的网状Meta分析中，治疗H与B比较的汇总治疗效果（OR 1.19，95%CI 1.06~1.35）基本上与2个试验的标准成对Meta分析不同（汇总OR3.87，95%CI 1.74~8.58）。

图6 对于至少有一个试验涉及的直接比较，扩展的森林图显示了各比较对的网状Meta分析结果。每个正方形表示该研究的比值比估计值，其平方大小与该研究中的患者数成比例，相应的水平线表示可信区间。每个菱形的中心表示来自网状Meta分析的汇总比值比，并且菱形的宽度提供其95%可信区间。BoS表示借用强度统计量，范围从0%到100%。

治疗排序

网状Meta分析有助于通过效果为治疗方法进行排序。这个过程通常，但不总是33需要使用模拟或重复抽样（resampling）方法28,31,34。这些方法的原理都是首先从汇总治疗效果（近似）分布中产生成千上万个样本，然后计算每种治疗效果最佳（或最差）的样本所占的百分比（概率）。图7上图显示每种溶栓剂治疗在所有治疗中按最有效进行排名的可能性，类似地得到第二、第三，一直到效果最差的可能性。图7下图显示在最有效降低30~35天内病死率的治疗方法中，治疗G具有最高概率（51.7%），其次是治疗E（21.5%）和B（18.3%）。

图7 溶栓剂治疗网状Meta分析中每项治疗的排名概率图。（上图）概率尺度图；（下图）累积概率尺度图。

注重概率排名第一可能存在误导性，虽然某种治疗排名第一，但它排名最后的概率也可能很大35，并且相比于其他治疗，它的优势并没有明显的临床价值。在我们的案例中，治疗G成为最有效治疗的概率最高，但治疗G的汇总效果与治疗B和E类似，其差异在临床上可能不太重要。此外，治疗G成为最无效治疗的概率（14.4%）排名第四，反映出虽然汇总效果较大，但CI较宽。相比之下，治疗B、E和F成为最无效治疗的概率较低（接近0%）。因此，一项治疗可能具有最高的可能性排名第一，但实际上缺乏强有力的证据（排除随机误差）证明它比其他可获得的治疗更有效。为了进一步说明这一点，我们在溶栓剂网状里添加一种名为Brexitocin的假想的新药，它不存在直接或间接证据。鉴于缺乏证据，Brexitocin基本上有50%的概率成为最有效的治疗方法，但也有50%的概率成为最无效的治疗方法。

平均排名和累积排名曲线下的面积（SUCRA）有助于解决这个问题。平均排名是每个治疗的平均排名。SUCRA是排名的累积概率曲线下面积（从最有效至最不有效）（图7中下图），它实际上是把平均排名转换成至0和1之间，与之相似的测量指标是P得分33。在溶栓剂网络（此时不包括Brexitocin）中，治疗B和E的平均值排名最高（分别为2.3和2.6），接着是治疗G（3.0）。因此，虽然治疗G排名第一的可能性最高，但根据平均值排名却为第三位。

从关联或间接证据获得的信息如何量化

Copas等（2017的个人通讯）提出，与具有相同试验异质性大小的多元或网状Meta分析相比，仅提供直接证据的标准（单变量）Meta分析相当于从所有相关研究中剔除了100 ×（1-E）%的研究。效率（E）定义为：

E=（基于直接和相关证据的汇总结果的方差）÷（仅基于直接证据的汇总结果的方差）

这里的相关证据是指间接证据或关联证据（或两者皆有），此处汇总结果的方差是指Meta分析的原始测度（通常是log RR、log OR、log HR或平均差）下的方差。例如，E= 0.9表示10%的研究和患者（及结局事件）并没有纳入到标准Meta分析(仅基于直接证据的Meta分析)。

我们将可获得的具有直接证据的研究（即用于进行标准Meta分析的研究）的数量定义为n，通过使用间接证据或关联证据得到的汇总Meta分析结果中获得的信息，可以用额外增加的研究数目来表示，即这些信息的增加相当于多找了几个规模的直接比较试验（参见图8中的等式1），其中每个额外研究的规模与这n个试验的平均规模相当。例如，如果标准单因素Meta分析纳入了9项研究，并且E= 0.9，则使用多元Meta分析的优势相当于多纳入了一项跟这9个研究平均规模相当的研究（参见图8中用于推导的方程2）。

图8 用于推导文中数字的等式。

Jackson等还提出借用强度（BoS）统计量8，适合于多元Meta分析或网状Meta分析的每个汇总结果（参见图8中等式3）。

BoS表示汇总结果的方差因关联或间接证据的引入（或借到）而减少的百分比。BoS可解释为关联证据或间接证据在Meta分析中所占的百分比权重8。例如，在一项网状Meta分析中，BoS为0%表示汇总结果仅基于直接证据，而BoS为100%表示汇总结果完全基于间接证据。Riley等展示了如何推导多参数Meta分析模型中的百分比权重，包括网状和多元Meta分析38。

举例应用

在纤维蛋白原的例子中，完全调整后的汇总HR的BoS值高达53%，表明关联证据（部分调整后的结果）的比重占汇总结果的53%。可得效率（E）为0.47，使用关联证据等同于从16项额外研究中获得完全调整后的结果（参见图8中推导等式4）。

在孕激素的例子中，肿瘤特异生存的BoS值为33%，表明利用无进展生存的结果，将肿瘤特异生存的汇总log HR的方差降低了33%。可得E值为0.67，多元Meta分析获得的信息可以被认为是从额外3项研究中获得的肿瘤特异生存结果（见图8中推导等式5）。

在溶栓剂Meta分析中，对于每个至少有一个试验提供了直接证据的治疗比较组，它们的BoS值都显示在图6中，其取值通常都较大。例如，治疗H和B比较的BoS值是97.8%，且有2个有直接证据的试验，相当于从额外89个研究获得直接证据，每个额外研究与这2个试验规模相似（见图8中推导等式6）。因为治疗E对比B没有间接证据，故BoS值是0%。若比较对没有在图6中显示，例如治疗C对比B，代表BoS值为100%，因为没有直接证据。补充材料3显示每项研究的权重百分比（贡献度）。

多元Meta分析或网状Meta分析的挑战及假设

本文的3个例子展示了多元和网状Meta分析的潜在价值，其他价值在其他文章中也有讨论15,20,39。然而，这些方法存在局限性。

多元Meta分析的价值可能很小

多元和单变量模型通常给出相似的点估计，虽然多元模型可能给出更加精确的估计。然而，增加的精确性会对系统评价的结论有多大程度的改变，目前尚不清楚。

——Trikalinos等201440

基于经验证据40，这一观点在纤维蛋白原的实例中可能体现不出。尽管多元Meta分析在精确性上有相当大的提升（BoS=53%），但不管是单变量还是多元Meta分析，均显示纤维蛋白原为心血管疾病的危险因素，结论没有不同。也有学者认为，知道这结论本身就很有用。

当BoS和E很大时，多结局的多元Meta分析可能显得很重要，常发生在以下情况中：

有很大比例的研究没有涉及所关注的结局；研究没有报告所关注的结局，但报告了其他结局；研究内或研究间，结局的相关性很大（例如，>0.5或

【本文地址】

The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018

The BMJ: 多重结局的多元Meta分析和多重治疗的网状Meta分析:原理、概念及实例【研究方法和报告】【2018

今日新闻

推荐新闻