“阴性”临床试验如何解读?

您所在的位置:网站首页 阴性用英语怎么写 “阴性”临床试验如何解读?

“阴性”临床试验如何解读?

2024-07-14 17:14| 来源: 网络整理| 查看: 265

作为四大临床医学期刊之首,《新英格兰医学杂志》鲜有发表与统计相关的文章。2016年,杂志却破天荒的连续发表了两篇与统计相关的综述性文献——临床试验结束后,“阴性结果”和“阳性结果”该如何解读。虽然文章已经发表了5年,但是不得不说,顶级期刊所发表的文章极具启发性,文章中的很多观点,对后续临床研究结果的解读非常具有帮助。笔者虽然不是专业的统计人士,但还是尝试对全文进行翻译,以期望对读者有所帮助。在原文中,多数举例来自心脑血管系统疾病的研究。笔者也会在每一部分的“补充”内容中,额外增加肺癌领域的相关研究实例。以下为编译正文。

47741633302731912

一个设计良好的临床试验,其可信度来自于对于预先设定研究假设的推断,这可以帮助研究者避免基于探索性数据得到假阳性结论。但是,目前广泛存在的一个不合理的现象是:所有临床研究都以P值是否<0.05被人为分为“阳性”或者“阴性”结果,这种做法过于简单粗暴。P值应当被视作一个连续变量,P值越小,说明研究证据越强。此外,置信区间在表征治疗效应的不确定性时,同样有用。对于任何一项临床试验的解读,都应该是基于完整的证据(如主要研究终点、次要研究终点及安全性数据),而不仅仅是基于单一的终点。 在此,我们提出了面对一项主要终点为阴性的临床试验时,需要考虑的一些问题。文中的例子多数来自于我们专长的心血管领域,但其背后的道理一体适用。  

结果为阴性时候的几个关键为题 当研究大于0.05这一预设的显著性水准时,说明这一治疗策略充满不确定性,我们第一反应可能是:哪儿错了?真的没有效果吗?有弥补的希望吗?下一步怎么办?以下12个问题的充分考虑及解答,可能会为结果的解读提供有效路径,分别是:1、有潜在获益的趋势吗?2、把握度足够吗?3、主要研究终点的选择是否合适(或者被准确定义)?4、研究人群合理吗?5、治疗方案合理吗?6、研究执行有缺陷吗?7、非劣效结论有价值吗?8、亚组分析显示阳性信号吗?9、次要研究终点有阳性发现吗?10、改变分析策略有帮助吗?11、有更积极的外部证据吗?12、是否有充分的生物学依据支持这一治疗?  

一、有潜在获益的趋势吗? 在P值大于0.05的前提下,推断是否存在获益信号(获益倾向)需要经过充分考虑。当主要研究终点呈现完全阴性的结果,对于这类临床试验的解释可以干脆利落。例如,PERFORM研究探索了特鲁曲班vs 阿司匹林在缺血性卒中的疗效及安全性,结果显示,两组在缺血性卒中、心肌梗死及其他心血管事件组成的复合终点上无差异(HR=1.02,95%,CI,0.94-1.12)。这项研究因其中期无效性分析被提前终止,且并无安全性优势。这些数据支持将这项试验定性为“阴性试验”。 与此相反,TORCH试验分析了沙美特罗联合氟替卡松vs安慰剂在慢性阻塞性肺疾病中的疗效及安全性,主要终点全因死亡的P值为0.052,但是在其他结局中,包括COPD的急性加重、健康状态等指标,沙美特罗联合氟替卡松相较于安慰剂均展示了更好的疗效。因此,审慎全面的解读这项研究比单纯定性为“阴性”结果更加合适。

补充:如前文所述,基于P值是否小于0.05将临床试验简单的分为“阳性“和”阴性“过于简单粗暴,因此,文章开篇作者就提到,动态看待P值。对于P=0.06和P=0.6的研究,虽然均大于0.05,但是其解读可能是不一样的。只是,当把P值当成一个连续变量的时候,”无获益的阴性结果“和”有获益趋势的阴性结果“,其P值的分界点又在哪里呢?这对结果的解读又引入了不利的人为因素。  

  二、把握度是否足够 纳入的病例数不够有可能导致本来存在的疗效并不显著,即出现假阴性结果(II类错误)。例如,在一项临床试验中,研究者分析了比索洛尔相较于安慰剂在心衰患者中的疗效及安全性,首要研究终点——全因死亡风险的HR值为0.80 (95%CI,0.56-1.15),但是,研究仅有621例患者,试验的把握度不够。幸运的是,申办方扩大样本含量,进行了CIBISII研究,该研究纳入2647例患者,结果发现,比索洛尔相较于安慰剂可以降低34%的死亡风险(HR=0.66,95% CI,0.54-0.81),而HR的点估计值同样落在首个研究中HR值的95%的置信区间内。 总之,在一项临床试验中,如果因为样本含量太小而导致无法发现原有的治疗效应,宜将其称为“非确认性的”而不是直接定性为“阴性的”研究。足够的把握度需要充分的终点事件数,这可以通过招募更多的患者、纳入高危患者、延长随访时间、纳入出现频率更高的终点以组成复合终点等,达到这一目的。 补充:把握度不足导致试验遗憾错失阳性结果的研究比比皆是,而造成把握度不够的主要一个原因,就是在研究过程中对疗效进行了过于乐观的估计,肺癌领域,Pembro-RT研究是其中的典型代表。该研究探索了在免疫治疗的基础上,给予低剂量放疗能否改善患者预后,作者假设,联合低剂量放疗可以将12周的ORR由20%提高至50%(这是一个非常激进的假设),即提高2.5倍,此时的样本含量为74例患者。最终结果发现,两组12周的ORR分别为18%和36%,实际提高了2倍。虽然数据很漂亮,但是,由于样本含量不足,把握度不够,最终,P=0.07;而中位PFS虽然分别为1.9个月和6.6个月,但是,差异同样无统计学意义(P=0.19)。在临床试验中,因为把握度不足而导致假阳性结果出现的例子不胜枚举。

51091633302731995

Pembro-RT研究的PFS

三、主要研究终点是否合适(被准确定义) 复合终点的应用虽然可以提高终点事件数,但不一定提高研究的把握度。例如,在比较吡格列酮和安慰剂在II型糖尿病患者中的疗效及安全性的PROactive研究中。研究者将死亡、心肌梗死、卒中、急性冠脉综合征、血管内手术和小腿截肢组成了研究的复合终点。最终,吡格列酮组和安慰剂组分别有514例和572例患者出现终点事件,P=0.08。但如果采用由死亡、心肌梗死及卒中组成的更加传统的复合终点,则两组分别出现301例和358例终点事件,P=0.03。因此,将其他终点引入组成复合终点,只是纳入了额外的随机噪音,稀释了真正的获益。 临床试验的成功有时候取决于对主要终点的清晰定义及准确判定。例如,在CHAMPIONPLATFORM试验中,研究者分析了坎格雷洛与氯吡格雷在接受PCI患者中的疗效,但研究因中期无效性分析被终止,因为在由死亡、急性心肌梗死及48小时缺血性血管再生组成的复合终点上,坎格雷洛并未带来获益。但是,该研究中,对于围手术期心肌梗死的定义无法有效识别出那些PCI后,很快出现心梗且标志物阳性的患者。因此,对于心肌梗死更加准确的定义可能会带来阳性结果,因此,在后续的CHAMPIONPHOENIX试验中,对于标志物波动的解读更加严谨,谨慎的判断围手术期心肌梗死的发生。最终发现,坎格雷洛相较于氯吡格雷,48小时主要终点(死亡、心梗、支架血栓及缺血导致的血管再生)风险降低22%,并使得FDA及EMA批准了该药物的上市。 

补充:临床试验中,如何选择一个合适的主要研究终点是非常重要的环节,这一点,笔者之前已经专题推送过。

  四、研究对象是否合理? 当研究出现阴性结果时,一个恰当的问题是:纳入的研究人群是否合理?例如,伊伐布雷定在稳定性冠心病患者中的两项研究BEAUTIFUL和SIGNIFY并未展示任何获益,但是,SHIFT研究则探索了该药能否降低心血管死亡风险及心衰导致的住院,结果发现,这一符合风险降低26%。因此,基于药物机制及前期研究,为瞄准目标人群开展确认性试验提供了重要基础。 

补充:在肿瘤精准治疗理念的影响下,合理选择治疗人群十分重要。因为纳入人群不合适而导致研究遭遇滑铁卢的例子同样很多。代表性研究就是KeyNote-024研究和CheckMate-026研究在2016年ESMO年会的那场“天王山之战”。两者均是探索针对PD-1的免疫检查点抑制剂——K药和O药对比一线化疗在晚期NSCLC患者中的疗效及安全性,不同的是,K药的KeyNote-024研究聚焦的是PD-L1≥50%的患者,而O药胃口更大,瞄准的是PD-L1≥5%的患者,但是,最终结果是冰火两重天。K药获得阳性结果,并顺利开启晚期肺癌的一线治疗适应症,而O药就此错失一线。

27551633302732171

KeyNote-024研究和CheckMate-026研究   

五、治疗剂量是否合理? 在临床试验中,确认一款新药的合理的给药剂量是非常具有挑战的事情。回过头来看,TARGET及MOXCON两项研究的失败可能与错误的剂量选择有关——前者药物剂量太低,后者太高。但即使有新的体外及II期剂量探索数据,该药在开展后续临床研究的可能性也不大。某些研究通过设立三个组,包括两个不同的剂量组来最大限度的减少这一风险。例如在PEGASUS-TIMI54研究中,在为心梗患者带来长期获益方面,60mg替格瑞洛的应用击败了90mg剂量组和安慰剂组。 

补充:合理的治疗剂量将为后期III期临床研究的开展奠定坚实的基础。过低的剂量可能会影响疗效,这点显而易见,但是,过高的剂量也并不一定导致疗效的增加,因为,过高的剂量可能带来明显的不良反应,导致患者频繁出现给药中断、给药终止及给药延迟,从而影响疗效。这一点,代表性的研究为ASCEND-4研究。该研究探索了对于ALK融合阳性的患者,塞瑞替尼与标准化疗的比较,结果,塞瑞替尼在750mg空腹服用的情况下,3度级以上不良反应发生率达到78%,比化疗组的62%还要高,这也是为数不多的靶向治疗毒性高于化疗。塞瑞替尼组,80%的患者因不良反应需要剂量调整或者治疗中断,而这一比例在化疗组为45%,这种频繁的剂量调整也直接影响了塞瑞替尼的疗效,导致其中位PFS仅为16.6个月,远远低于其他二代治疗药物。虽然塞瑞替尼后续开展了不同剂量的探索,并发现450mg随餐服用可以降低不良反应并提高疗效,但这毕竟只是小样本探索性研究,而不是确认性结论。这也从侧面提示,塞瑞替尼在进行剂量探索时候存在一定的缺陷。

87811633302732347

ASCEND-4研究的PFS   六、研究执行过程是否有缺陷? 不能高质量的执行研究方案有可能导致治疗效应被稀释,甚至完全消失。例如,在六个国家中进行的TOPCAT研究探索了安体舒通vs.安慰剂在保留左心室射血分数的患者中的疗效及安全性,其主要研究终点的HR值为0.89 (95%CI,0.77-1.04)。但是,在俄罗斯及格鲁吉亚患者中,很少出现终点事件,提示可能在这两个国家中,研究方案并未被高质量执行甚至纳入了不符合入组标准的患者。如果将分析人群局限在其他4个国家,则HR值为0.82 (95%CI, 0.69-0.98; P = 0.026)。基于这种事后分析能否提供足够信服力的证据,在这部分患者中是否应该推荐安体舒通,目前尚有争议。 

补充:没啥好补充的。高质量的执行是临床研究的根本之一。没有高质量的执行及质控,一切免谈。   

七、非劣效结论有意义吗? 当新的治疗手段相较于阳性对照没有达到优效性标准时,能否得出非劣效结论呢?需要注意的是,只有当新的治疗手段具有某些独特的优势(如更安全、更微创)的时候,这种非劣效结论才可取。但此时,非劣效界值需要提前确定。例如,VALIANT研究探索了并发心肌梗死的患者,接受缬沙坦、卡托普利或两者联合治疗的疗效及安全性,研究并未发现缬沙坦在降低死亡方面的获益(HR=1.00;,97.5%CI, 0.90-1.11;P=0.98),但是,由于其置信区间上限并未超过预设的界值1.13,因此,允许研究者得到缬沙坦非劣效于卡托普利的结论。因此,对于那些接受卡托普利治疗后出现咳嗽等难以耐受的不良反应的患者,缬沙坦提供了一个替代选择。 

补充:这一部分笔者专门咨询了统计学方面的专业人士。这一部分的内容似乎欠妥。临床上,通常可以进行非劣效转优效设计,而基本不会在优效结论没有达到时,转为非劣效,这样有“先打靶,在确定靶子的位置”的嫌疑。   

八、亚组分析是否有积极信号? 对主要研究终点为阴性的临床试验进行亚组分析是合理的,但是得到的结论往往并不可信(除非有强烈的生物学依据支持这一发现)。通常进行亚组分析时候,研究者并未进行多重性考虑。即使经过交互性检验发现有统计学意义,这样的结论充其量只能用来提出研究假设。实际上,我们在本领域很难找出哪个确认性临床研究,是基于阴性临床试验中的阳性亚组分析得到的。 但是基于亚组分析确实启动了一项多中心临床研究。SYNTAX研究探索了对于有三支或者左主干病变的患者,PCI vs.冠脉搭桥的疗效及安全性,最终发现,整体人群中,冠脉搭桥的效果更好,但是,在亚组分析中,左主干病患的患者,PCI的疗效及安全性是可接受的(甚至可能是更优的)。这项事后分析结果使得研究者开启了EXCEL研究,以比较在左主干病变的患者中,PCI与冠脉搭桥患者中的疗效,研究结果预期于2016年结果。 

补充:关于亚组分析,笔者也曾经进行专题推送。

九、次要研究终点有阳性发现吗? 通常情况下,当主要研究终点为阴性的时候,次要研究终点的分析就是探索性的,相应的,监管部门也就当然不会基于此批准药物上市。但是,当次要研究终点的效力足够强的时候,也可能会影响临床实践。例如,ASCOT研究比较了氨氯地平和阿替洛尔在高血压患者的应用,研究的主要终点是非致死性心肌梗死和致死性冠脉疾病组成的复合终点,HR为0.90 (95%CI,0.79-1.02;P = 0.11)。但是,在卒中、心血管事件、全因死亡及新发糖尿病预防方面,氨氯地平展示了更好的疗效(P值分别为P



【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3