1. 研究设计和分析方法的阐述不够清晰
“重现性”是体现科学过程的基础。如果可以获得与某一研究相同的数据,依据文章的“研究方法”这一部分,遵循相同的统计方法,应该可以得到相同的结果。否则就表明该文章对于研究设计或者分析方法的介绍是不完整的。好的“研究方法”不仅应该详细介绍数据的来源、研究设计类型(如前瞻性的队列研究或回顾性研究等),还应该有明确的纳入排除标准以及缺失数据的处理方法等。
“研究方法”这一部分通常都会介绍文中使用的统计学方法,例如:服从正态分布的组间比较用t检验,不服从正分布的用Wilcoxon秩和检验;分类变量的组间比较依据适用条件选择卡方检验或Fisher确切概率法。
但是仅凭上述一段简单描述并不完整,为了确保“重现性”,需要具体明确验证某一假设时采用了何种检验方法。举例而言,卡方检验、连续性校正、Fisher确切概率法有不同的统计学适用条件,不同的检验方法得出的结论常常会有细微的差别;在构建多变量模型时如果不能说明获得最终模型的过程以及所依据的原则,这样的分析有可能是无法被重现的。
【建议】① 简洁清晰地描述选取研究对象及数据收集过程,明确在分析每一个假设及研究指标时所对应的统计学方法。② 结果部分需要包括两方面内容:
2. 研究目的与研究结论不相符
研究背景通常用来介绍文章的研究目的,但是在某些研究中,研究设计、分析或讨论焦点与研究目的并不相符,而是离题或者在强调一些次要终点的信息,尤其是主要终点事件不具有统计学意义的情况下。
例如,某项临床试验的目的是为了通过比较不同组的疾病发病情况(即主要终点事件)来验证相关的假设,但是结果却集中在研究的实验室价值或不良反应的发生情况(即次要事件)。
【建议】“结果具有统计学差异”并不是论文发表的必要条件,文章的重点内容应该始终围绕主要研究目的;对于有显著差异的次要终点事件,也应该清晰地标注出来,但是却不能取代“主要终点事件”。
3. 从“薄弱”的研究设计或数据中得出有说服力的结论
回顾性研究在医学研究中的运用越来越广泛,通常选择临床上的连续病例(consecutive patients),根据某些特征进行分组来满足不同的纳入标准(例如,克罗恩病患者和溃疡性结肠炎患者;男性和女性;接受胆囊切除术患者和接受监护患者),运用合适的统计学方法来确定不同组之间的人口学资料、行为及生化指标等的差异,来推断不同组之间主要研究终点的差异。
但是此类研究最容易忽视不同组研究对象之间的可比性,例如,某研究[2]想证明“长期服用阿司匹林是否可以带来生存获益?”,两组患者的基本情况见表1。
表1显示,两组患者在性别、年龄等六项内容都有显著差异,这些因素很有可能会影响到患者是否长期服药以及疾病的预后,两组不具有可比性,无法证明两组的差异是由于“长期服用阿斯匹林”所导致的。
【建议】非随机对照试验中,可以运用倾向评分等方法来分析,首先计算每一位患者接受某种治疗的可能性,然后比较可能性相似患者接受不同治疗后的预后情况,以减少由于缺乏随机化所带来的偏倚。
4. 用组内比较推断组间差异
很多研究会在基线水平和一个或几个随访时间点对研究指标进行测量(例如随机临床试验的治疗前和治疗后),作者也可以对两组或多组的指标测量值的变化进行分析(例如RCT中的安慰剂组和治疗组)。常见的结果就是治疗组前后有明显的改善,而安慰剂组并没有明显的改善。很多作者的分析到此结束,并就此认为治疗是有效果的,但是事实并非如此。
例如,某项研究用来评估A、B两种降压药的效果[2],一组给予A药,组内用药前后比较显示其效应值和标准误为25 ± 10,差异有统计学意义(P<0.01);另外一组给予B药,组内用药前后比较显示其效应值和标准误为10 ± 10,差异无统计学意义。
此时容易得出“两种药物的疗效明显不同”的结论,认为A药的疗效优于B药。但是事实上对两组进行比较,差异并无显著性(P > 0.05),两组间比较显示A、B两种药物的效应差值为15,标准误为 = 14。“两种药物的疗效明显不同”的结论是不正确的。
【建议】为了证明一组的治疗效果明显优于另外一组,组内比较是不够的,而应该对组间的差异进行比较。
5. 将有相关性的数据当独立数据进行分析
许多研究都会对研究对象进行多次(重复)测量。例如,患者可能会多次进行食道、胃、十二指肠镜检查,每一次检查都会提供一个或多个不同组织活检的结果。如果将这些结果看作是独立的,会忽视同次活检的不同组织之间的相关性,以及同一患者多次活检之间的相关性。
举例而言,有两种不同的方法获取100份活检组织,如图所示:
显然a方法有更好的代表性。对上述两种方法所获得的数据进行分析,由于b方法获得的数据有相关性,若按照独立数据来进行分析,则会高估研究的精确性。忽略这种相关性会导致方差估计值偏小,使得检验效能看起来比实际要高,因而可能会导致拒绝无效假设,然而事实上研究资料并不足以得出这样的结论。
【建议】选择适合重复测量资料的统计学方法,例如,重复测量资料的方差分析、混合效应模型。需要注意的是,文章中应该明确模型的假设、验证假设所使用的方法以及处理相关数据所使用的方法。
6. 在匹配的病例对照研究中没有采用匹配的分析方法
病例对照研究中,病例组均为患有某种疾病X的研究对象,而对照组通常为与病例组可比的、未患有某种疾病X的研究对象。在1:1匹配的病例对照研究中,对照组和病例组的研究对象需要在一个或多个可能的混杂因素上进行匹配(例如,年龄、性别、BMI),以提高统计学功效。
【建议】若采用了匹配的病例对照研究设计,则在样本量计算和统计分析时需要采用与“匹配”研究设计对应的分析方法。例如,在匹配的病例对照研究中,应采用条件Logistic回归,将每对匹配的病例和对照均看作一层,来对疾病的危险因素进行评估。
7. 对“生存数据”以固定观察时间分析未考虑截尾数据或随访时间的差异
队列研究中,研究对象出现某种结果的时间通常是不同的。这种随访时间的不同包含失访或出现截尾数据的情况。例如,通过结肠镜检对某特定人群进行结肠癌筛查,并且随访观察结肠癌的发生情况。
如果所有的研究对象都具有统一的观察期(例如6个月),那么就可以利用卡方检验来分析该因素与6个月结局发生率之间的关系,或者可以用Logistic回归对潜在的混杂因素进行调整。若各个研究对象的随访时间不同或研究中有不少截尾数据的存在,则采用生存分析法更为合适。
【建议】如果医学上有必要区分“早期发生”或“晚期发生”,那么“未发生”结局事件(上例中即为未患结肠癌)的研究对象的数据就很重要,此时应该使用Kaplan-Meier法来对6个月发生率进行估计。在这种情况下,相比使用Logistic回归来探讨某些影响因素,使用Cox比例风险模型更为合适。
8. P>0.05不等于“两组相同”
组间比较通常会有三种结果:两组可能相同、两组可能不同、缺少证据来证明两组相同或者不同。大多数的假设检验以零假设开始,如果证据充足,可以拒绝零假设并发现差异;然而,如果没能发现差异,可能依旧无法得知两组是相同,还是由于缺乏证据而无法证明它们有差异。
【建议】当P>0.05时,要避免得出“两组是相同的”这一结论,而应该是:“没有证据显示两组有差异”。如果研究目的是为了得出“两组一样”的结论,那需要进行等效性检验,或者是计算置信区间。与假设检验相比,置信区间能提供更为清楚的结果。
在非劣效性研究中,并不是以“两组相同”(例如不良反应发生率相等)作为零假设,而是以“治疗组的不良反应发生率比对照组高5%”作为零假设,若拒绝零假设,则认为治疗组与对照组的不良反应发生率的差值不超过5%。
9. 仅报告P值,缺乏其他重要信息
“与安慰剂组相比,治疗组更容易发生不良反应(P=0.04)”。在该例子中,P值的含义是什么?针对哪一种不良反应?是将所有不良反应作为整体进行了比较?还是分别对每一种不良反应进行了比较?作者是对不良反应的数量、中位数还是不良反应的构成比进行了比较?
类似上述这种P值,由于不明确用了什么假设以及使用的数据类型,因此并不具备实际意义。
举个例子,假设有两个临床试验[2],其结果见表1。
根据表1,仅仅依据P值,两个研究得到的结论是一样的,但是由于样本量的不同,两个研究的治疗组和安慰剂组的效应差值是不同的,并且95%置信区间也有较大差异。如果只依靠P值,可能就会忽视样本量对结果带来的影响。
【建议】对于每一个P值,应该清楚说明是针对什么假设以及运用的检验方法。在某些情况下,P值并非是最好的选择,报告效应值大小或者置信区间也许更加有意义,也更加清晰。
10. 过度追求P<0.05而忽视医学本身
过分强调统计学方法往往容易忽视医学本身。P<0.05仅仅是一个统计学上的指标,必须建立在满足生物合理性和公认的医学证据的基础上。Fisher强调,研究者应该根据广泛的专业知识对显著性水平进行解释。
然而,很多情况下作者用统计学检验方法代替医学解释,更糟糕的是利用有意义的检验结果来美化文章(例如,次要终点成为文章的重点)。实际上应该根据经验和已有的证据建立一个假设,然后通过假设检验的方法来解决这些问题。
从20世纪50年代到70年代,随机临床实验成为了医学研究的金标准。假设检验随之成为随机对照试验中比较治疗效果的有效的、客观的方法。虽然并非所有的试验都满足随机对照试验的条件,但是都需要依靠假设检验,结果导致了过分夸大P值,尤其随意将其与0.05水平进行比较,对统计学在临床实践中的应用产生了很大的影响。
【建议】理想的情况是样本可以代表所有患者,但事实上这是不可能的。因此,需要在文中汇报效应值、置信区间,并在医学和生理学基础上对结果进行合理的解释说明,以便帮助其他研究者做出判断。
- 980 次浏览