教育2026-04-107分で読める
医学研究におけるp値と統計的有意性
p値とは?
p値は医学研究で最も広く使用され、最も広く誤解されている統計の一つです。
正式な定義:p値は、帰無仮説が真であると仮定した場合に、観察された結果と同等以上に極端な結果が得られる確率です。
帰無仮説は通常「効果はない」または「2つの治療法は同等である」です。小さなp値は:帰無仮説が真であった場合、偶然にこれほど極端な結果を見ることは非常にまれであることを意味します。
p値0.03は:帰無仮説が真であった場合、このような極端またはそれ以上の結果を偶然に見る可能性は3%であることを意味します。
p < 0.05が意味しないこと
p < 0.05の閾値は医学研究に深く組み込まれていますが、しばしば誤って解釈されます。
p < 0.05が意味しないこと:
- 結果が正しい確率が95%である
- 治療が確実に効果的である
- 効果が臨床的に意味のあるものである
- 研究が再現される
- 帰無仮説が偽である
p < 0.05が意味すること:
- 帰無仮説が真であった場合、このような極端な結果は5%未満の確率でのみ偶然に発生する
- 「統計的有意性」の任意の閾値を満たす
0.05の閾値は1920年代にロナルド・フィッシャーが経験則として選択したものです — 自然の基本法則ではありません。
統計的有意性vs.臨床的有意性
統計的に有意な結果が必ずしも臨床的に意味があるとは限りません。
例:50,000人の患者を対象とした大規模試験で、新薬が血圧を1 mmHg低下させることが判明(p = 0.0001)。これは統計的に非常に有意ですが、臨床的には無意味です — 1 mmHgの差は心血管アウトカムに影響を与えません。
逆に、30人の患者を対象とした小規模試験で薬が腫瘍サイズを40%縮小させることが判明(p = 0.08)。これは0.05の閾値を下回りますが、さらなる調査に値する本当に重要な効果を表している可能性があります。
常に問うべき質問:効果サイズは何か?臨床的に意味があるか?信頼区間は何か?臨床的に重要な最小差を含んでいるか?
信頼区間の方がより有益
95%信頼区間(CI)はp値単独よりも多くの情報を伝えます。
オッズ比の95%CIが1.2〜3.4の場合:
- 最良の推定値は中点(おおよそ2.0)
- 真の効果が1.2〜3.4の間にある可能性が95%
- 1.0(効果なし)が除外されているため、結果は統計的に有意
信頼区間が伝えること:
- 効果の方向
- 効果の大きさ
- 推定値の精度
- 効果が臨床的に意味があるかどうか
1.0が除外されていれば技術的に有意であるCIが0.9〜12.0に及んでいる場合、推定値が非常に不正確であることを示します。
多重比較とp値ハッキングの問題
20の統計的検定を実行してp < 0.05を閾値として使用すると、実際には何も起きていなくても純粋に偶然で1つの「有意な」結果が期待されます。
これは多重比較問題と呼ばれ、p値ハッキングにつながります:多くの分析を実行し、p < 0.05に達したものを選択的に報告する。
これに対処するために:
- ボンフェローニ補正:閾値を比較の数で割る(例:0.05/10 = 0.005)
- 事前登録:データ収集前に主要アウトカムにコミット
- 偽発見率(FDR):予想される偽陽性の割合を制御
複数のアウトカムを持つ研究を読む場合、主要アウトカムが事前指定されているかどうか、多重比較の補正が適用されているかどうかを確認してください。
p値を超えて:効果サイズ
米国統計学会と多くのジャーナルは現在、二値的なp < 0.05の決定から離れ、信頼区間を伴う効果サイズを報告することを推奨しています。
一般的な効果サイズ指標:
- コーエンのd:標準化された平均差(d = 0.2小さい、0.5中程度、0.8大きい)
- オッズ比(OR):曝露群と非曝露群のアウトカムのオッズの比
- 相対リスク(RR):治療群と対照群のリスクの比
- 絶対リスク減少(ARR):イベント率の差(臨床的に最も直観的)
- 治療必要数(NNT):1/ARR — 1人が恩恵を受けるために何人の患者が治療を必要とするか
MetaLens AIは出版された抄録からこれらの効果サイズを抽出・表示し、p値だけよりも豊かな情報を提供します。
AI搭載メタ分析を体験しませんか?
MetaLens AIを無料で試す