教育2026-04-107分钟阅读

医学研究中的p值和统计显著性

什么是p值？

p值是医学研究中使用最广泛也最被误解的统计量之一。正式定义：p值是在假设零假设为真的前提下，观察到至少与所发现结果同样极端的结果的概率。零假设通常是"没有效应"或"两种治疗效果相同"。较小的p值意味着：如果确实没有效应，观察到这样极端结果的可能性非常低。 p值为0.03意味着：如果零假设为真，随机情况下只有3%的概率会看到这样极端或更极端的结果。

p<0.05不意味着什么

p<0.05阈值在医学研究中根深蒂固，但常被错误解读： **p<0.05不意味着：** - 结果正确的概率为95% - 治疗肯定有效 - 效应具有临床意义 - 研究将被重复验证 - 零假设为假 **p<0.05确实意味着：** - 如果零假设为真，这样极端的结果偶然发生的概率不足5% - 该发现达到了"统计显著性"的任意阈值 0.05阈值是Ronald Fisher在20世纪20年代选择的经验法则——而非自然法则。

统计学意义与临床意义

统计学显著结果不一定具有临床意义。 **举例：**一项有5万名患者的大型试验发现，一种新药可将血压降低1 mmHg（p=0.0001）。这具有高度统计学显著性，但在临床上毫无意义——1 mmHg的差异对心血管结局没有影响。相反，一项有30名患者的小型试验发现，药物可将肿瘤体积缩小40%（p=0.08）。这虽未达到0.05阈值，但可能代表一个值得进一步调查的真正重要效应。始终要问：效应量是多少？它是否具有临床意义？置信区间是多少？它是否包含最小临床重要差异？

置信区间提供更多信息

95%置信区间（CI）比单独的p值提供更多信息。如果比值比的95%CI为1.2至3.4： - 最佳估计值是中点（大约2.0） - 你可以95%确信真实效应在1.2至3.4之间 - 由于1.0（无效应）被排除，结果具有统计学意义置信区间传达： - 效应的方向 - 效应的大小 - 估计值的精确度 - 效应是否具有临床意义如果CI从0.9延伸到12.0，技术上在1.0被排除的情况下具有统计学意义，但巨大的范围告诉你估计值非常不精确。

多重比较与p值操控问题

如果你进行20次统计检验并使用p<0.05作为阈值，即使实际上什么都没有发生，你也会期望有1个"显著"结果纯粹出于偶然。这被称为多重比较问题，它导致p值操控：进行许多分析并选择性地报告达到p<0.05的那些。解决方法： - **Bonferroni校正**：将阈值除以比较次数（例如，0.05/10=0.005） - **预注册**：在收集数据之前承诺你的主要结局 - **错误发现率（FDR）**：控制预期假阳性比例在阅读有多个结局的研究时，检查主要结局是否预先规定，以及是否应用了多重比较校正。

超越p值：效应量

美国统计学会和许多期刊现在建议超越二元p<0.05决策，报告带置信区间的效应量。常见效应量测量： - **Cohen's d**：标准化均差（d=0.2小，0.5中，0.8大） - **比值比（OR）**：暴露组与非暴露组结局概率之比 - **相对风险（RR）**：治疗组与对照组风险之比 - **绝对风险降低（ARR）**：事件率之差（临床上最直观） - **需治数（NNT）**：1/ARR——需要治疗多少患者才能使一人获益 MetaLens AI从已发表摘要中提取并显示这些效应量，为你提供比单独p值更丰富的图景。

准备体验AI驱动的荟萃分析吗？

免费试用MetaLens AI