교육2026-04-107분 읽기
의학 연구에서 p-값과 통계적 유의성
p-값이란?
p-값은 의학 연구에서 가장 널리 사용되고 가장 널리 오해되는 통계량 중 하나입니다.
공식 정의: p-값은 귀무가설이 참이라고 가정할 때, 관찰된 결과만큼 극단적인 결과를 관찰할 확률입니다.
귀무가설은 보통 "효과 없음" 또는 "두 치료가 동등함"입니다. 작은 p-값은 다음을 의미합니다: 진정한 효과가 없다면, 이렇게 극단적인 결과를 우연히 볼 가능성이 매우 낮다.
p-값 0.03은 다음을 의미합니다: 귀무가설이 참이라면, 이 정도 극단적이거나 더 극단적인 결과는 우연히 3%의 경우에만 나타납니다.
p < 0.05가 의미하지 않는 것
p < 0.05 기준은 의학 연구에 깊이 뿌리박혀 있지만, 종종 잘못 해석됩니다:
**p < 0.05는 다음을 의미하지 않습니다:**
- 결과가 정확할 확률이 95%
- 치료가 분명히 효과적임
- 효과가 임상적으로 의미 있음
- 연구가 재현될 것임
- 귀무가설이 거짓임
**p < 0.05는 다음을 의미합니다:**
- 귀무가설이 참이라면, 이만큼 극단적인 결과는 우연히 5% 미만으로 발생
- 발견이 "통계적 유의성"에 대한 임의적 기준을 충족
0.05 기준은 1920년대 Ronald Fisher가 경험칙으로 선택한 것입니다 — 자연의 근본 법칙이 아닙니다.
통계적 유의성 vs. 임상적 유의성
통계적으로 유의한 결과가 반드시 임상적으로 의미 있지는 않습니다.
**예시:** 5만 명 환자의 대규모 시험에서 새로운 약물이 혈압을 1 mmHg 감소시킴 (p = 0.0001). 이는 고도의 통계적 유의성을 가지지만 임상적으로 무의미합니다 — 1 mmHg 차이는 심혈관 결과에 영향이 없습니다.
반대로, 30명 환자의 소규모 시험에서 약물이 종양 크기를 40% 감소시킴 (p = 0.08). 0.05 기준에는 미치지 못하지만 추가 조사가 필요한 진정으로 중요한 효과를 나타낼 수 있습니다.
항상 물어보세요: 효과 크기는 무엇인가? 임상적으로 의미 있는가? 신뢰 구간은? 최소 임상적으로 중요한 차이를 포함하는가?
신뢰 구간이 더 정보를 제공
95% 신뢰 구간(CI)은 p-값 단독보다 더 많은 정보를 전달합니다.
교차비의 95% CI가 1.2~3.4라면:
- 최선의 추정치는 중간점 (대략 2.0)
- 실제 효과가 1.2~3.4 사이에 있음을 95% 확신
- 1.0(효과 없음)이 제외되므로 결과는 통계적으로 유의함
신뢰 구간은 다음을 전달합니다:
- 효과의 방향
- 효과의 크기
- 추정치의 정밀도
- 효과가 임상적으로 의미 있는지 여부
CI가 0.9~12.0이면 기술적으로 유의하지만, 엄청난 범위는 추정치가 매우 부정밀함을 알려줍니다.
효과 크기: p-값을 넘어서
미국 통계 협회와 많은 저널들은 이제 이진법적 p < 0.05 결정에서 벗어나 신뢰 구간과 함께 효과 크기를 보고할 것을 권고합니다.
일반적인 효과 크기 측정값:
- **Cohen's d**: 표준화 평균 차이 (d = 0.2 소, 0.5 중, 0.8 대)
- **교차비(OR)**: 노출군 대 비노출군의 결과 교차 비율
- **상대 위험도(RR)**: 치료군 대 대조군의 위험 비율
- **절대 위험 감소(ARR)**: 사건율의 차이 (임상적으로 가장 직관적)
- **치료 필요 수(NNT)**: 1/ARR — 한 명이 이득을 얻기 위해 치료받아야 하는 환자 수
MetaLens AI는 발표된 초록에서 이러한 효과 크기를 추출하고 표시하여 p-값 단독보다 풍부한 그림을 제공합니다.
AI 기반 메타분석을 체험해 보세요!
MetaLens AI 무료 사용