교육2026-04-107분 읽기

의학 연구에서 p-값과 통계적 유의성

p-값이란?

p-값은 의학 연구에서 가장 널리 사용되고 가장 널리 오해되는 통계량 중 하나입니다. 공식 정의: p-값은 귀무가설이 참이라고 가정할 때, 관찰된 결과만큼 극단적인 결과를 관찰할 확률입니다. 귀무가설은 보통 "효과 없음" 또는 "두 치료가 동등함"입니다. 작은 p-값은 다음을 의미합니다: 진정한 효과가 없다면, 이렇게 극단적인 결과를 우연히 볼 가능성이 매우 낮다. p-값 0.03은 다음을 의미합니다: 귀무가설이 참이라면, 이 정도 극단적이거나 더 극단적인 결과는 우연히 3%의 경우에만 나타납니다.

p < 0.05가 의미하지 않는 것

p < 0.05 기준은 의학 연구에 깊이 뿌리박혀 있지만, 종종 잘못 해석됩니다: **p < 0.05는 다음을 의미하지 않습니다:** - 결과가 정확할 확률이 95% - 치료가 분명히 효과적임 - 효과가 임상적으로 의미 있음 - 연구가 재현될 것임 - 귀무가설이 거짓임 **p < 0.05는 다음을 의미합니다:** - 귀무가설이 참이라면, 이만큼 극단적인 결과는 우연히 5% 미만으로 발생 - 발견이 "통계적 유의성"에 대한 임의적 기준을 충족 0.05 기준은 1920년대 Ronald Fisher가 경험칙으로 선택한 것입니다 — 자연의 근본 법칙이 아닙니다.

통계적 유의성 vs. 임상적 유의성

통계적으로 유의한 결과가 반드시 임상적으로 의미 있지는 않습니다. **예시:** 5만 명 환자의 대규모 시험에서 새로운 약물이 혈압을 1 mmHg 감소시킴 (p = 0.0001). 이는 고도의 통계적 유의성을 가지지만 임상적으로 무의미합니다 — 1 mmHg 차이는 심혈관 결과에 영향이 없습니다. 반대로, 30명 환자의 소규모 시험에서 약물이 종양 크기를 40% 감소시킴 (p = 0.08). 0.05 기준에는 미치지 못하지만 추가 조사가 필요한 진정으로 중요한 효과를 나타낼 수 있습니다. 항상 물어보세요: 효과 크기는 무엇인가? 임상적으로 의미 있는가? 신뢰 구간은? 최소 임상적으로 중요한 차이를 포함하는가?

신뢰 구간이 더 정보를 제공

95% 신뢰 구간(CI)은 p-값 단독보다 더 많은 정보를 전달합니다. 교차비의 95% CI가 1.2~3.4라면: - 최선의 추정치는 중간점 (대략 2.0) - 실제 효과가 1.2~3.4 사이에 있음을 95% 확신 - 1.0(효과 없음)이 제외되므로 결과는 통계적으로 유의함 신뢰 구간은 다음을 전달합니다: - 효과의 방향 - 효과의 크기 - 추정치의 정밀도 - 효과가 임상적으로 의미 있는지 여부 CI가 0.9~12.0이면 기술적으로 유의하지만, 엄청난 범위는 추정치가 매우 부정밀함을 알려줍니다.

효과 크기: p-값을 넘어서

미국 통계 협회와 많은 저널들은 이제 이진법적 p < 0.05 결정에서 벗어나 신뢰 구간과 함께 효과 크기를 보고할 것을 권고합니다. 일반적인 효과 크기 측정값: - **Cohen's d**: 표준화 평균 차이 (d = 0.2 소, 0.5 중, 0.8 대) - **교차비(OR)**: 노출군 대 비노출군의 결과 교차 비율 - **상대 위험도(RR)**: 치료군 대 대조군의 위험 비율 - **절대 위험 감소(ARR)**: 사건율의 차이 (임상적으로 가장 직관적) - **치료 필요 수(NNT)**: 1/ARR — 한 명이 이득을 얻기 위해 치료받아야 하는 환자 수 MetaLens AI는 발표된 초록에서 이러한 효과 크기를 추출하고 표시하여 p-값 단독보다 풍부한 그림을 제공합니다.

AI 기반 메타분석을 체험해 보세요!

MetaLens AI 무료 사용

p-값이란?

p < 0.05가 의미하지 않는 것

통계적 유의성 vs. 임상적 유의성

신뢰 구간이 더 정보를 제공

효과 크기: p-값을 넘어서

관련 약물 비교