首页 > 代码库 > 实验组和对照组的样本量一定要“均衡”才行?

实验组和对照组的样本量一定要“均衡”才行?

AME统计025|实验组和对照组的样本量一定要“均衡”才行?

 

“随机、对照、重复、均衡”是统计学和流行病学老师在课堂上经常强调的内容之一。受此影响,很多同行在开展科研的过程中不分青红皂白地遵循这四大原则。特别是对于“均衡”这一概念,很多研究者总是觉得要是实验组和对照组不平衡(样本量相差甚远)的话,研究结果就不够可靠。殊不知,并非所有的研究都要遵循“均衡”原则的。而且,部分研究如果严格遵循“均衡”原则的话,不仅无助于研究质量的提升,反而会削弱研究的论证强度。

 

实际上,“均衡”这一原则主要是针对干预性研究提出来的,旨在维持较高的统计效能。而在医学研究领域,除了干预性研究(比如随机对照试验)外,还有观察性研究和诊断准确性试验,这些研究就不需要研究者老老实实地遵循“均衡”原则了。对于观察性研究和诊断准确性试验而言,最重要的设计要点之一就是要体现“真实世界”,或者说样本来源及构成比要接近于临床实际。

 

1、诊断准确性试验

 

理想的诊断准确性试验属于单门设计,即设立统一的纳入排除标准,连续或随机招募所有符合条件的病人,然后根据金标准将病人分为疾病组和对照组(非疾病组),然后采用受试者工作特征曲线(ROC)或四格表评价某一手段对疾病的鉴别能力。此外,为了保证研究质量,提升论证强度,还应该遵循双盲、统一金标准、全部接受金标准、金标准独立等原则。从上述设计原则我们不难看出,实验组和对照组是自然形成的,无需刻意将比例控制在1:1。

 

比如:某研究分析了 NT-proBNP 在呼吸困难人群中对心力衰竭的诊断价值(J Am Coll Cardiol 2010; 55:2062-2076.),在设立了统一的纳入标准(因呼吸困难而就诊)和排除标准(外伤)后,研究者采用连续招募的方式募集到了 1641 例呼吸困难的人群,并采用金标准将病人划分为心衰病人(n=568)和非心衰病人(n=1073)。在此研究中,实验组(心衰病人)和对照组(非心衰病人)的样本之比大约是 1:2 左右。

 

按照“均衡”原则来衡量的话,这项研究有一个明显的设计缺陷:试验组和对照组的样本量居然不均衡。J Am Coll Cardiol 这种丧心病狂到令人发指的杂志怎么会接受这样一篇用脚拇指都能看出的有漏洞的论文呢?

 

实际上,试验组和对照组不平衡的问题并不是这项研究的缺陷,反而是研究的亮点。我们知道,在诊断试验中,诊断敏感性和特异性与诊断界值的取舍密切相关,而诊断界值的取舍又在很大程度上取决于待评价试验结果在实验组和对照组中的分布状况。如果刻意将实验组和对照组比例控制到 1:1,当然也能进行诊断准确性方面的统计学分析,但是问题在于,这种统计分析结果不具备外推性(clinical application),或者说其结论不能直接用于指导临床工作,因为实验组和对照组的比例完全是虚拟的,与真实世界的情况相差甚远。在真实世界中,如果您接诊了 1641 个因呼吸困难而就诊的人群的话,确实只能观察到约 568 例心衰病人。因此,基于这样一个人群的研究结果,显然才会具有外推性。实际上,这种实验设计理念在诊断准确性试验质量评价工具(QUADAS)中也得到了充分的体现。感兴趣的读者可以阅读 QUADAS 的相关内容。

 

2、队列研究

 

队列研究主要有两种,一种是研究疾病发生风险,另一种则是研究疾病的预后。我们以前一种队列研究为例,重点谈一谈实验组和对照组是否需要平衡的问题。

 

2012 年的 BMJ 杂志刊登了一篇文章,分析类风湿因子(RF)与类风湿关节炎(RA)发病风险的关系。该研究于 1982 年左右纳入了 9712 名无 RA 的普通人群进行了分析,检测了这些人群当时的 RF 水平,随后对这些研究对象进行了长达 28 年的随访,发现有 183 人发展为 RA,之后研究者采用了 Kaplan-Meier 法和 Cox 模型分析了基线 RF 与未来 RA 发病风险的关系。在这个研究中,实验组就是在随访过程中发生 RA 的患者(n=183),对照组则是剩下的人群(n=9529),两者的样本量可谓相差甚远。但是就这样一个不“均衡”的研究,却能“堂而皇之”地发表在大名鼎鼎的 BMJ 上,因为这样的研究设计才是真实世界的研究!

 

众所周知,在队列研究中,一般采用 Kaplan-Meier 法和 Cox 模型去分析暴露因素与结局事件之间的关系,通过 Cox 模型中的风险比(HR)来反映暴露因素与结局事件之间的关系密切程度。HR 具有极为重要的临床价值,因为它直接反映了暴露因素与结局事件的关联性。比如:与 RF<25 IU/ml 的患者相比,RF>100 IU/ml 的个体的 HR 为 5,其对应的临床解释为:RF>100 IU/ml 的个体在未来三十年内发生 RA 的风险是 RF<25 IU/ml 的人群的 5 倍。

 

在 Cox 模型中,HR 在很大程度上受样本构成比的影响。假如在上述研究中,我们刻意将实验组和对照组的比例控制在 1:1(采用巢式病例对照研究的模式),当然也能用 Cox 模型算出一个 HR,但是这个 HR 显然不能外推,不能用于临床实践,因为这个 HR 是经虚拟世界的研究出来的,在这个虚拟世界中,RA 和对照组的构成比是 1:1,即有一半的研究对象在随访过程中发生了 RA!而在真实世界中,在三十年的随访过程中,发生 RA 的仅为少数。

 

3、基于回顾性资料的观察性研究或诊断准确性试验也应该尽量体现真实世界

 

前面两个例子都是基于前瞻性资料的研究,在这些研究中,真实世界尚未开始,因为研究者可以采用各种方法去确保研究对象、研究过程接近于真实世界。但是如果是基于回顾性资料的研究,真实世界早已一去不复返,又该怎么办呢?笔者认为,即使是基于回顾性资料的研究,也应该尽量将研究设计得接近真实世界。

 

笔者以 2015 年发表在 Am J Cardiol(2015; 115:57-61.)上面的一篇基于回顾性资料的队列研究来谈谈如何在此类研究中体现真实世界。研究者欲研究中性粒细胞/淋巴细胞比值(NLR)与心力衰竭患者预后的关系,因此从所在医院的电子病历库中提取 2007 年至 2010 年期间求治于克利夫兰诊所的所有进展期心力衰竭患者的病历资料,共计 549 份。进一步分析后,发现其中有 22 份病例上没有 NLR 的结果,因此只能对剩下的 527 份病例进行分析。研究者通过社保系统查询到了这 527 名研究对象的远期预后,发现在随访期间共有 121 例患者接受了心脏移植,158 例患者死亡。经过一系列统计分析后,作者发现基线 NLR 与患者的远期预后密切相关,NLR 大于 5.4 的患者,发生全因死亡的风险是 NLR 小于 3 的患者的 2.16 倍。

 

这是一项基于回顾性资料的队列研究(回顾性队列研究),从中我们可以看出,为了保证研究对象接近于真实世界,作者可谓煞费苦心!最重要的措施就是纳入所有病例,向读者和审稿人传递一个信息:虽然我们的研究不是真实世界的研究,但是我们想了很多办法去回溯真实世界,目前的研究对象和真实世界已经很接近了。的确,在 549 份病例中,只遗漏了 22 份病例,其对结果的影响是很小的。

 

国内杂志上刊登的很多研究,往往没有花笔墨去介绍研究是否接近于真实世界,只是轻描淡写地写一句“选取某段时间在医院就诊的患某种疾病的患者 200 名”。问题在于:这 200 名患者是如何获得的?随机选取还是随意选取?能否代表真实世界中这个疾病的状况呢?

 

4、总结

 

“均衡”原则主要是针对干预性研究提出来的,如果研究者开展的是观察性研究或者诊断性试验,则没有必要遵循这一原则。观察性研究和诊断准确性试验最重要的是要体现真实世界,即实验组和对照组应该是自然形成的,无需刻意将其比例控制在 1:1!

http://mp.weixin.qq.com/s?__biz=MzA4MzU2NjUyNA==&mid=403622821&idx=5&sn=c4a6f1c1abba84ecfe01df963892b3b2&scene=21#wechat_redirect

实验组和对照组的样本量一定要“均衡”才行?