教育2026-04-107分钟阅读
医学研究中的p值和统计显著性
什么是p值?
p值是医学研究中使用最广泛也最被误解的统计量之一。
正式定义:p值是在假设零假设为真的前提下,观察到至少与所发现结果同样极端的结果的概率。
零假设通常是"没有效应"或"两种治疗效果相同"。较小的p值意味着:如果确实没有效应,观察到这样极端结果的可能性非常低。
p值为0.03意味着:如果零假设为真,随机情况下只有3%的概率会看到这样极端或更极端的结果。
p<0.05不意味着什么
p<0.05阈值在医学研究中根深蒂固,但常被错误解读:
**p<0.05不意味着:**
- 结果正确的概率为95%
- 治疗肯定有效
- 效应具有临床意义
- 研究将被重复验证
- 零假设为假
**p<0.05确实意味着:**
- 如果零假设为真,这样极端的结果偶然发生的概率不足5%
- 该发现达到了"统计显著性"的任意阈值
0.05阈值是Ronald Fisher在20世纪20年代选择的经验法则——而非自然法则。
统计学意义与临床意义
统计学显著结果不一定具有临床意义。
**举例:**一项有5万名患者的大型试验发现,一种新药可将血压降低1 mmHg(p=0.0001)。这具有高度统计学显著性,但在临床上毫无意义——1 mmHg的差异对心血管结局没有影响。
相反,一项有30名患者的小型试验发现,药物可将肿瘤体积缩小40%(p=0.08)。这虽未达到0.05阈值,但可能代表一个值得进一步调查的真正重要效应。
始终要问:效应量是多少?它是否具有临床意义?置信区间是多少?它是否包含最小临床重要差异?
置信区间提供更多信息
95%置信区间(CI)比单独的p值提供更多信息。
如果比值比的95%CI为1.2至3.4:
- 最佳估计值是中点(大约2.0)
- 你可以95%确信真实效应在1.2至3.4之间
- 由于1.0(无效应)被排除,结果具有统计学意义
置信区间传达:
- 效应的方向
- 效应的大小
- 估计值的精确度
- 效应是否具有临床意义
如果CI从0.9延伸到12.0,技术上在1.0被排除的情况下具有统计学意义,但巨大的范围告诉你估计值非常不精确。
多重比较与p值操控问题
如果你进行20次统计检验并使用p<0.05作为阈值,即使实际上什么都没有发生,你也会期望有1个"显著"结果纯粹出于偶然。
这被称为多重比较问题,它导致p值操控:进行许多分析并选择性地报告达到p<0.05的那些。
解决方法:
- **Bonferroni校正**:将阈值除以比较次数(例如,0.05/10=0.005)
- **预注册**:在收集数据之前承诺你的主要结局
- **错误发现率(FDR)**:控制预期假阳性比例
在阅读有多个结局的研究时,检查主要结局是否预先规定,以及是否应用了多重比较校正。
超越p值:效应量
美国统计学会和许多期刊现在建议超越二元p<0.05决策,报告带置信区间的效应量。
常见效应量测量:
- **Cohen's d**:标准化均差(d=0.2小,0.5中,0.8大)
- **比值比(OR)**:暴露组与非暴露组结局概率之比
- **相对风险(RR)**:治疗组与对照组风险之比
- **绝对风险降低(ARR)**:事件率之差(临床上最直观)
- **需治数(NNT)**:1/ARR——需要治疗多少患者才能使一人获益
MetaLens AI从已发表摘要中提取并显示这些效应量,为你提供比单独p值更丰富的图景。
准备体验AI驱动的荟萃分析吗?
免费试用MetaLens AI