常规收集医疗数据开展观察性研究，统计方法怎么写？® -网聚医学的力量

常规收集医疗数据开展观察性研究，统计方法怎么写？

作者：彭晓霞等译来源：医咖会日期：2019-06-12

导读

将这篇文章分享给医咖会的伙伴们，希望大家能从中有所收获。

关键字：医学人文 | |

内容来自《药物流行病学杂志》2019年第28卷第3期，原题目为《使用常规收集医疗卫生数据开展观察性研究的报告规范(药物流行病学版)》。文章译自：BMJ， 2018， 363： k3532。译者申明：RECORD-PE规范中文版翻译得到RECORD指导委员会授权、认可发表。译者为聂晓璐，武泽昊，赵厚宇，詹思延，孙凤，彭晓霞。

将这篇文章分享给医咖会的伙伴们，希望大家能从中有所收获。

(感谢彭晓霞教授的授权)

今天这篇文章，我们将继续对报告规范中数据来源、偏倚、统计方法、数据获取与清理办法的相关条目进行详细说明，并同样辅以实例解析。

方法(数据来源)

1. RECORD-PE 规范条目8.a

描述产生药物暴露记录的卫生保健系统及其机制。明确处方产生的临床场景。

1.2 解释

卫生保健系统的种类、可获得用药数据的患者特征和患者处方药报销的范围均可影响药物使用的可能性和研究数据中记录药物使用情况的可能性——如法规限制可能妨碍药物的使用。了解这一背景对于解释外推性或理解不同场景中药物可及性的局限非常重要。

例如，虽然加拿大有政府资助的全民医疗保健制度，有些省份可报销全部处方药物费用，但另一些省份只覆盖特定年龄段或者需要社会救助的低收入人群的处方药费用。在第二类省份中，补充性的私人保险在政府医保未覆盖的人群中会很常见，因此在省一级医疗管理数据中的用药信息可能不全。

这些缺失信息可能会导致判断发生偏差，因为只有特定患者才有完整的处方记录。如果公共保险仅覆盖老年人群，那么左截断也会引人偏倚。因此，应该提供卫生系统的特征以及药物数据收集的背景。

1.3 描述药物处方发生的卫生保健系统实例

Larivée等报告，重新开始使用含屈螺酮合并口服避孕药(COCs)的患者可能在英国数据库中也会被错分为首次使用的患者，因为口服避孕药经常在计划生育门诊(如社区避孕门诊、泌尿生殖医学诊所、性健康诊所等)开具。

在英格兰，2009 ~ 2010 年大约 7.9% 的年龄小于 16 周岁的女性曾就诊于计划生育门诊;2008 ~ 2009年约有 21.5% 年龄 16 ~ 19 岁的女性曾就诊于计划生育门诊。

临床实践研究数据(clinical practice research datalink，CPRD)仅仅记录了全科医生的处方，社区计划生育门诊口服避孕药数据的可获得性导致很难定义首次用药者。

为解决这一问题，研究采用了几条排除标准，如排除所有之前由全科医生开过激素避孕药的女性，以及诊断编码提示以前使用过激素避孕的女性。另外研究还排除了在进入队列前曾到社区计划生育门诊就诊的女性(通过诊断或转诊编码提示)。

Khan等报告，使用唯一的患者识别码，在注册登记中识别的卒中患者被链接到安大略省药物福利数据库(Ontario Drug Benefits Database)，该数据库包含 65岁以上人群的降压药处方信息，包括药物发放的数量和日期，以及每张处方的使用天数。

居民可在安大略省的任何门诊药房开药，每张处方最高自付金额为 6.11 加元，每年可减免 100 加元。低收人老年人每份处方的最高自付限额为 2 加元，且每年减免费用不设限制。使用邮政编码，注册登记中的患者也可与 2006 年加拿大人口普查数据进行链接，以确定社区收入的中位数。

方法(偏倚)

1. REC0RD-PE 规范条目

在RECORD和加强流行病学观察性研究(STROBE)规范条目之外，无需制定特定的RECORD-PE规范条目。

1.2 解释

研究偏倚是指观察到的关联存在系统误差，读者需要理解控制偏倚所采用的方法以判断结果是否存在偏倚。药物流行病学研究中可能有一些潜在的偏倚，在使用常规收集数据开展研究时会更突出。近期有论文在讨论偏倚时提到使用三角测量法(triangulation)可能会有帮助。

R0BINS-I(非随机干预研究的偏倚风险工具)可能也有助于对偏倚的讨论。

以下列出了一些在药物流行病学研究中应该报告的潜在偏倚：

a. 在药物流行病分析中可能通过设计或者分析方法来处理混杂。这种设计或者设计特征的例子包括采用自身对照的病例系列、工具变量、断点回归设计及阳性对照。

分析方法可包括采用多因素回归分析或者倾向性评分，虽然这些方法不能保证消除混杂。应该报告用以处理混杂的研究设计或者分析方法，而且作者应该在讨论部分叙述这些方法在多大程度上处理或者没有处理混杂风险。如果运用了多种方法，作者应明确哪一种分析方法是主要分析，以及哪些是敏感性分析。

b. 在采用倾向性评分来处理基线混杂时，应该报告倾向性评分估计的方法(如Logistic回归)。评分可通过倾向性评分匹配、倾向性评分分层、协变量调整及逆概率加权等几种方法来校正基线混杂。

应清楚描述具体使用的方法(或多种方法)，同时还应报告评估治疗组和非治疗组基线变量可比性而采取的任一方法。如果研究者设定了剔除标准，应讨论剔除参与者后剩下的人数。

尤其是，已有报告用基于倾向评分法的高维代理变量调整可以减少使用保险数据开展研究的残余混杂，如果使用了这种方法的话，应对其进行描述。应在在线附录中列出依靠经验识别的潜在混杂因素。如果采用了其他的方法(如工具变量)，应与运用倾向性评分要求类似，在论文中详细描述这些方法。

c. 在考虑药物治疗研究的混杂时，特别相关的是试图采用非干预研究设计评估疗效的研究。这类研究包括意向治疗效果(intention-to-treat effect，指对在基线时分配的治疗策略的效果进行比较，不考虑研究对象是否依从被分配的治疗)和基于治疗的效果(as treated effect，对药物实际使用效果进行比较)。

当研究者基于常规收集数据设计的观察性研究是为了模拟假设的或真实试验时，作者应对拟模拟的既有或假设试验给予清晰阐述。对允许个体更换药物治疗作为分析的一部分的研究，应考虑时间依赖混杂因素的作用，并在论文中给予报告，同时包括使用的任何复杂统计方法的细节(如边缘结构模型的逆概率加权)。

研究实例：在关于阿司匹林与心血管死亡风险的研究中，Cook等使用有向无环图描述使用阿司匹林、心血管死亡和介人心血管事件之间的关系，以表明非致死性心血管事件作为时间依赖混杂因素或中间环节对阿司匹林使用与心血管死亡关联的影响。

d. 由健康状况引起的混杂(健康初始者偏倚或者易感性损耗)可以在研究设计阶段加以处理，即要求观察起始点与治疗起始点保持一致(采用阳性对照的新用药者设计;参见REC0RD-PE 规范条目4.a)。需要讨论决定使用这一设计特征的原因以及是否能处理选择偏倚及其程度。

e. 由处方或者回收记录定义药物暴露可能导致潜在错分，从而引入信息偏倚和选择偏倚，这时可以采用包括不同暴露定义的敏感性分析进行处理(如采用不同算法来定义处方周期的持续时间。

备选方案是仅纳入规定时间内多次处方或有回收记录的患者(如6个月内)，因为那些只有一次处方或回收记录的个体很可能没有使用药物。运用不同的洗脱期去定义新的治疗周期也可能会影响对数据的解释。在基于常规收集医疗卫生数据开展的药物流行病学研究报告中，应明确描述和讨论每一个问题。

方法(统计方法)

1. REC0RD-PE 规范条目 12.a

对评价是否满足假设的方法进行描述。

1.1.解释

在报告所有的研究设计时，作者应该讨论是否满足基本的研究假设。如果未能满足这些假设，可能会削弱使用的研究方法(的适用性)。在给定数据的情况下，确定所使用的方法是否恰当，对于读者理解是否需要进一步考虑分析结果是非常重要的。

以自身对照研究(参与者作为自身对照)的药物流行病学研究为例，包括病例交叉设计和自身对照病例系列研究，当采用自身对照病例系列方法时，必须满足一些假设才能得到真实无偏的估计，例如，所研究的药物暴露一定不能受到服药之前的结局事件的影响。

作者应该清晰地阐明如何评估自身对照或其他研究设计的假设。关于自身对照病例研究实施和报告的详细规范已超出了这些规范的范围，目前研究者已经呼吁需要对自身对照交叉观察性药物流行病学(self controlled crossover observational pharmacoepidemiology， SCOPE )开始相关内容的研究。所有的报告都应该对没有评价或未满足的假设给予解释。同样需要讨论处理时间相关偏倚(如恒定时间偏倚)的方法，如果可能存在这一问题的话。

1.2 检验研究假设的实例

Wilson等报告绘制了疫苗接种前后复合终点事件发生的数量。在自身对照病例系列模型中，每位患者注射疫苗的日期被设定为暴露的标签日期。之前的研究已经表明儿童在接种疫苗后 5 ~ 14 d 会增加系统性反应的风险 …… 因为预先并不确定在疫苗接种后多久的时间内可能会出现复合终点事件发生风险的增加，研究修改了标准的自身对照病例系列方法，从接种疫苗后的第 1 天到第 17 天，考察每一天的风险增加 ……

又将20 ~ 28 d 的时间定义为未暴露，还在暴露与未暴露时间段之间设立了洗脱期…… 当某一个体发生多个终点事件时，将疫苗接种后规定时间内发生的复合结局中最早出现的事件作为结局事件(如有人去急诊室就诊，那么这个人在研究期间算为发生一个结局事件)。

通过固定效应泊松回归模型比较暴露时期与非暴露时期复合终点事件的相对发生率。这个模型包括了暴露时间项和患者项，因此可以允许每一个体作为她或他自身的对照，同时考虑个体内的相关性。另外包括一个偏倚项，以调整暴露和非暴露期的不同持续时长。

2. REC0RD-PE 规范条目 12.b

描述和说明多种设计、设计特征或分析方法。

2.1 解释

正如在 REC0RD-PE 规范条目4.a 中探讨的，在同一研究报告中采用多种设计或者设计特征是药物流行病学研究的常用策略，用以评估潜在偏倚和残余混杂。如果作者用了多种方法进行分析，应该对这些方法进行清晰的概述，以便读者评估其优势和局限性。

作者还应该明确说明他们如何保证在不同数据库中进行分析的可重复性，包括编码和卫生保健系统之间的差异等相关问题。如果作者采用通用数据模型(请看下面的第2个实例)来分析不同数据来源的数据，应该描述不同的数据源以及他们使用了哪一种通用数据模型。如果不同数据来源的数据整合已经构建完成，应描述构建的方法。

2.2 描述每个设计、设计特征、或分析方法的实例

Wong等报告运用泊松回归对克拉霉素和阿莫西林的新使用者、最近使用者和既往使用者的率比进行估计。在自身对照病例系列分析中，运用条件泊松回归来估计发病率的比，比较风险时间窗内事件发生率与基线的事件发生率。

还运用了事后的交叉病例分析，这一分析方法不易受自身对照病例系列设计的局限性影响。病例交叉设计适用于调查短暂用药与短时间内突然发生的结局之间的关联性。运用条件Logistic 回归来估计比值比，比较结局事件发生之前(当前时期)患者的用药与之前非暴露时期的患者用药。

But 等报告了来自 5 个队列的个体水平的数据，已经由当地研究合作者采用通用数据模型对其进行了标准化。之后通过将标化数据上传到丹麦的数据分析中心的服务器进行集中分析，在这里构建了个体水平数据集，采用完全相同的方法评估每个队列中胰岛素暴露与其他变量。

运用了半聚合分层方法将数据集进行合并，这些数据集由癌症数据点列出癌症病例的人数和人-年数并按照分类变量进行合并。

方法(数据获取与清理办法)

1. REC0RD-PE 规范条目

在RECORD规范条目之外无需特定的 RECORD-PE 规范条目。

2.1 解释

RECORD规范声明：作者应该提供研究中使用数据清理方法的相关信息。这些信息对药物流行病学研究尤其重要，因为药物暴露数据的准备十分复杂，而且反映了通常未被披露的系列假设。

因此，数据清理远远不止是去除离群值的范畴。当需要准备数据用于分析时(如将原始的处方数据转化为暴露或者非暴露人时)，作者应该使数据清理的步骤透明化。这些步骤可能包括生成暴露开始和结束日期;为了管理的灵活性而提供管理说明时(如需要时才开药)，当处方时间存在重叠时，或者遇到临床中不可能出现的观测值时所做的假设。