Educación2026-04-107 min de lectura

Valores p y significancia estadística en la investigación médica

¿Qué es un valor p?

El valor p es uno de los estadísticos más utilizados y más malinterpretados en la investigación médica. La definición formal: el valor p es la probabilidad de observar resultados al menos tan extremos como los encontrados, asumiendo que la hipótesis nula es verdadera. La hipótesis nula suele ser "no hay ningún efecto" o "los dos tratamientos son iguales". Un valor p pequeño significa: si realmente no hubiera ningún efecto, sería muy poco probable observar resultados tan extremos por azar. Un valor p de 0,03 significa: si la hipótesis nula fuera verdadera, verías resultados tan extremos o más extremos solo el 3% de las veces por azar.

Lo que p < 0,05 NO significa

El umbral p < 0,05 está profundamente arraigado en la investigación médica, pero a menudo se interpreta incorrectamente: **p < 0,05 NO significa:** - Hay un 95% de probabilidad de que el resultado sea correcto - El tratamiento definitivamente funciona - El efecto es clínicamente significativo - El estudio se replicará - La hipótesis nula es falsa **p < 0,05 SÍ significa:** - Si la hipótesis nula fuera verdadera, resultados tan extremos ocurrirían menos del 5% de las veces por azar - El hallazgo cumple un umbral arbitrario de "significancia estadística" El umbral 0,05 fue elegido por Ronald Fisher en la década de 1920 como regla empírica, no como una ley fundamental de la naturaleza.

Significancia estadística frente a significancia clínica

Un resultado estadísticamente significativo no es necesariamente clínicamente relevante. **Ejemplo:** Un gran ensayo con 50.000 pacientes encuentra que un nuevo fármaco reduce la presión arterial en 1 mmHg (p = 0,0001). Esto es altamente significativo estadísticamente pero clínicamente sin importancia: una diferencia de 1 mmHg no tiene impacto en los resultados cardiovasculares. Por el contrario, un ensayo pequeño con 30 pacientes encuentra que un fármaco reduce el tamaño del tumor en un 40% (p = 0,08). Esto no alcanza el umbral de 0,05 pero puede representar un efecto genuinamente importante que merece más investigación. Siempre pregunta: ¿Cuál es el tamaño del efecto? ¿Es clínicamente relevante? ¿Cuál es el intervalo de confianza? ¿Incluye la diferencia mínima clínicamente importante?

Los intervalos de confianza son más informativos

Un intervalo de confianza (IC) del 95% te dice más que un valor p por sí solo. Si el IC del 95% para una razón de probabilidades es de 1,2 a 3,4: - La mejor estimación es el punto medio (aproximadamente 2,0) - Puedes estar un 95% seguro de que el efecto verdadero se encuentra entre 1,2 y 3,4 - Dado que se excluye 1,0 (ningún efecto), el resultado es estadísticamente significativo Los intervalos de confianza comunican: - La dirección del efecto - La magnitud del efecto - La precisión de la estimación - Si el efecto es clínicamente relevante Un IC que va de 0,9 a 12,0 es técnicamente significativo si se excluye 1,0, pero el enorme rango te indica que la estimación es muy imprecisa.

Comparaciones múltiples y el problema del p-hacking

Si realizas 20 pruebas estadísticas y usas p < 0,05 como umbral, esperarías 1 resultado "significativo" puramente por azar, incluso si realmente no ocurre nada. Esto se denomina el problema de las comparaciones múltiples y conduce al p-hacking: ejecutar muchos análisis y reportar selectivamente los que alcanzan p < 0,05. Para abordar esto: - **Corrección de Bonferroni**: divide el umbral por el número de comparaciones (p. ej., 0,05/10 = 0,005) - **Prerregistro**: comprométete con tu resultado primario antes de recopilar datos - **Tasa de descubrimiento falso (FDR)**: controla la proporción esperada de falsos positivos Al leer un estudio con múltiples resultados, comprueba si el resultado primario estaba preespecificado y si se aplicaron correcciones por comparaciones múltiples.

Más allá de los valores p: tamaños del efecto

La Asociación Americana de Estadística y muchas revistas ahora recomiendan ir más allá de las decisiones binarias de p < 0,05 y reportar tamaños del efecto con intervalos de confianza. Medidas comunes del tamaño del efecto: - **d de Cohen**: diferencia de medias estandarizada (d = 0,2 pequeño, 0,5 mediano, 0,8 grande) - **Razón de probabilidades (OR)**: cociente de probabilidades de resultado en expuestos frente a no expuestos - **Riesgo relativo (RR)**: cociente del riesgo en el grupo tratado frente al grupo control - **Reducción absoluta del riesgo (RAR)**: diferencia en las tasas de eventos (clínicamente más intuitivo) - **Número necesario para tratar (NNT)**: 1/RAR — cuántos pacientes necesitan tratamiento para que uno se beneficie MetaLens AI extrae y muestra estos tamaños del efecto de los resúmenes publicados, ofreciéndote una imagen más rica que los valores p por sí solos.

¿Listo para probar el meta-análisis con IA?

Prueba MetaLens AI Gratis

Comparaciones de medicamentos relacionadas

Pranlukast vs Montelukast

Metformin vs Insulin

Ibuprofen vs Acetaminophen

Lisinopril vs Losartan