高影响因子期刊上发表的那些非劣效性试验® -网聚医学的力量

高影响因子期刊上发表的那些非劣效性试验

作者：佚名来源：网络日期：2019-07-01

导读

近年来发表的非劣效性试验越来越多，然而，这些研究的方法学质量如何，我们还知之甚少。近日，《Circulation》杂志发表了一项研究，以心血管领域为例，对高影响因子期刊上发表的非劣效性试验的特征、方法学质量等进行了探讨。

关键字：高影响因子

研究确定了1990-2016年发表在JAMA、Lancet和NEJM上的非劣效性试验。两位独立评审员提取了数据。关注的数据要素包括非劣效性界值，哪些研究的结果达到了非劣效性，哪些试验存在可能会影响非劣效性推断结果的主要或次要因素。

主要的方法学局限性因素包括：没有同时展示ITT分析(意向性分析)和PP分析(符合研究方案分析)的结果，α>0.05，新治疗手段未与最佳治疗方案进行比较，没有证明非劣效性界值的合理性，队列排除人数或失访率≥10%。次要因素包括次优盲法，是否分组隐匿等。

研究结果

研究人员在PubMed上进行检索，共检索到2，544篇文章，其中110篇(包括111项试验)符合入选标准(表1)。

表1 入选的非劣效试验的基本研究特征

研究发表的时间跨度从1992年到2016年。这些试验中，样本量中位数为3，006(IQR：1，021-6，068)。可检验到非劣效性的效能(power)中位数为86%(IQR：80%-90%)。可进入主要终点分析的患者中位数为2，707(IQR：1，021-5，966)。9项研究(8.1%)提前终止(4项研究由于安全性问题，3项由于入组较慢，1项研究发现无益处，1项研究由于完整性受损)。

非劣效性界值

60项(54.0%)试验的非劣效性界值是基于ARD(绝对风险差异，absolute risk difference)决定的，50项(45.0%)试验基于相对差异(29项基于HR，14项基于RR，7项试验基于OR)。1项试验的界值基于相对差异但没有作进一步细分，1项试验没有报告非劣效性界值。

各项试验的非劣效性界值差异很大(ARD在0.4%~25%，HR在1.05~2.85，RR在1.1~1.8，OR在1.1~2.0)。

在发表过研究设计/研究方案相关方法学文章的试验中，研究人员发现有7篇试验的研究设计/方案与最终发表的论文之间存在差异或有信息缺失。有的在最终发表的文章中更改了非劣效性界值，有的则缺少如何选择非劣效性界值相关的部分或全部细节。

主要终点的结果

111项试验中，有2项试验，无法评估置信区间。在109项符合标准的试验中，86项(78.9%)的试验显示具有非劣效性(其中20项试验的结果也显示出优效性);23项(21.1%)试验未达到非劣效性(16项研究的结果不确定，7项研究显示干预措施的结局更差)(图1)。

图1 纳入研究的主要终点的结果

在95项(85.6%)试验中，主要终点分析是基于ITT分析或校正ITT分析，11项(9.9%)试验使用PP分析，5项(4.5%)使用其他或未定义的分析类型。

绝大多数(90%)试验在摘要中适当地报告了研究结果，即是非劣效，优效或劣效性，研究如果没有达到，则指出未达到非劣效性。但是，还有一些试验，要么是摘要给出的信息和研究结果之间存在差异，要么是摘要提供的信息不足。

方法学和报告的局限性

表2和图2显示了存在主要和次要局限性因素的试验的比例。70项试验(63.1%)通过对另一个队列人群的二次分析(例如，如果首次分析是ITT分析，则再做一次PP分析)来展示主要研究终点，其中66项试验的结果一致，而4项试验的两次分析结果不一致。

表2. 纳入的研究中是否存在可能导致偏倚的因素

图2 存在主要和次要局限性因素的试验分布情况

68项试验(61.3%)提供了如何确定非劣效性界值，而43项试验(38.7%)没有。110项(99.0%)试验的单侧α≤0.05，其中44项试验的单侧α≤0.025。事后分析(post-hoc analysis)发现，与医疗器械试验相比，药物试验的α水平更低(Wilcoxon秩和检验P = 0.02)。

在27项研究中(24.3%)，有> 10%的参与者提前退出，包括随访失访，提前停止干预或其他原因(表2)。

总体而言，基于所有主要的偏倚因素，27项试验(24.3%)被认为具有低偏倚风险。

97项(87.3%)试验的标题或摘要中报告了非劣效性设计。67项(60.4%)试验，除了最终的研究论文，还同步发表了研究设计或研究方案的方法学文章。在这67项试验中，8项(11.9%)试验的非劣效性界值在最终投稿论文与方案之间存在差异或在其中一篇文章中未披露。

大多数试验(n = 60，54%)是开放标签试验，12项试验(10.8%)为单盲，39项(35.1%)为双盲。100项试验进行了分组隐匿(90%)。91项试验(82%)对主要终点进行了盲法判定。

总之，基于所有的次要偏倚因素，25项试验(22.5%)具有低偏倚风险(图2)。根据所有主要和次要因素，有7项试验(6.3%)具有低偏倚风险。

事后分析未显示出三种期刊的文章在主要因素(Kruskal-Wallis检验P = 0.28)或次要因素(Kruskal-Wallis检验P = 0.11)上的差异。

然而，对非劣效性试验的研究设计或研究方案的可获得性进行评估，在三种期刊中，NEJM发表的试验中，有74.2%发表过相关的方法学文章或有在线的研究方案，JAMA为53.3%，Lancet为33.3%(Fisher精确检验P = 0.001)。

时间趋势

近年来，这些期刊上发表的心血管非劣效性试验有所增加(P<0.001 for trend，图3)。一项事后分析显示，在111项纳入的试验中，发表时间在2010年后的有52项(46.8%)。2010年之后发布的试验，存在方法学或研究报告局限性的风险有所降低(2010年之前 vs 2010年之后，主要偏倚因素和次要因素的P = 0.03和0.002)。

讨论

心血管领域中的非劣效性试验越来越多地发表在高影响力的期刊上，这些试验中非劣效性试验主要用于对新干预措施的检验。并且大多数是大型多中心研究。鉴于许多非劣效性试验已成为批准新疗法的基础，很有必要对他们进行研究。

尽管大多数试验声称新治疗手段相比对照组的非劣效性，但很多研究存在具有偏倚风险的方法学或研究报告局限性，可能会削弱其结论的可信度。有必要提高对这些局限性因素的认识，更好遵从FDA和CONSORT指南关于非劣效性试验设计、实施和报告的建议。