Éducation2026-04-107 min de lecture
Valeurs p et signification statistique dans la recherche médicale
Qu'est-ce qu'une valeur p ?
La valeur p est l'une des statistiques les plus utilisées et les plus mal comprises dans la recherche médicale.
La définition formelle : la valeur p est la probabilité d'observer des résultats au moins aussi extrêmes que ceux trouvés, en supposant que l'hypothèse nulle est vraie.
L'hypothèse nulle est généralement « il n'y a aucun effet » ou « les deux traitements sont égaux ». Une petite valeur p signifie : si il n'y avait vraiment aucun effet, il serait très improbable de voir des résultats aussi extrêmes par hasard.
Une valeur p de 0,03 signifie : si l'hypothèse nulle était vraie, vous observeriez des résultats aussi extrêmes ou plus extrêmes seulement 3 % du temps par hasard.
Ce que p < 0,05 ne signifie PAS
Le seuil p < 0,05 est profondément ancré dans la recherche médicale, mais il est souvent interprété incorrectement :
**p < 0,05 ne signifie PAS :**
- Il y a 95 % de chances que le résultat soit correct
- Le traitement fonctionne définitivement
- L'effet est cliniquement significatif
- L'étude sera reproduite
- L'hypothèse nulle est fausse
**p < 0,05 signifie :**
- Si l'hypothèse nulle était vraie, des résultats aussi extrêmes se produiraient moins de 5 % du temps par hasard
- La découverte satisfait un seuil arbitraire de « signification statistique »
Le seuil de 0,05 a été choisi par Ronald Fisher dans les années 1920 comme règle approximative — pas comme une loi fondamentale de la nature.
Signification statistique vs. signification clinique
Un résultat statistiquement significatif n'est pas nécessairement cliniquement significatif.
**Exemple :** Un grand essai avec 50 000 patients montre qu'un nouveau médicament réduit la pression artérielle de 1 mmHg (p = 0,0001). C'est hautement statistiquement significatif mais cliniquement sans signification — une différence de 1 mmHg n'a aucun impact sur les résultats cardiovasculaires.
Inversement, un petit essai avec 30 patients montre qu'un médicament réduit la taille de la tumeur de 40 % (p = 0,08). Cela manque le seuil de 0,05 mais peut représenter un effet véritablement important qui mérite une investigation plus approfondie.
Demandez toujours : Quelle est la taille de l'effet ? Est-elle cliniquement significative ? Quel est l'intervalle de confiance ? Inclut-il la différence minimale cliniquement importante ?
Les intervalles de confiance sont plus informatifs
Un intervalle de confiance (IC) à 95 % vous en dit plus qu'une valeur p seule.
Si l'IC à 95 % pour un rapport de cotes est de 1,2 à 3,4 :
- La meilleure estimation est le point médian (environ 2,0)
- Vous pouvez avoir 95 % de confiance que le vrai effet se situe entre 1,2 et 3,4
- Puisque 1,0 (aucun effet) est exclu, le résultat est statistiquement significatif
Les intervalles de confiance communiquent :
- La direction de l'effet
- L'ampleur de l'effet
- La précision de l'estimation
- Si l'effet est cliniquement significatif
Un IC allant de 0,9 à 12,0 est techniquement significatif si 1,0 est exclu, mais l'énorme plage vous indique que l'estimation est très imprécise.
Comparaisons multiples et le problème du p-hacking
Si vous effectuez 20 tests statistiques et utilisez p < 0,05 comme seuil, vous attendriez 1 résultat « significatif » purement par hasard — même si rien ne se passe réellement.
C'est ce qu'on appelle le problème des comparaisons multiples, et cela conduit au p-hacking : effectuer de nombreuses analyses et ne rapporter sélectivement que celles qui atteignent p < 0,05.
Pour y remédier :
- **Correction de Bonferroni** : diviser le seuil par le nombre de comparaisons (par exemple, 0,05/10 = 0,005)
- **Pré-enregistrement** : s'engager sur votre résultat principal avant de collecter les données
- **Taux de fausses découvertes (TFD)** : contrôle la proportion attendue de faux positifs
Lorsque vous lisez une étude avec plusieurs résultats, vérifiez si le résultat principal était pré-spécifié et si des corrections pour comparaisons multiples ont été appliquées.
Au-delà des valeurs p : les tailles d'effet
L'American Statistical Association et de nombreuses revues recommandent maintenant d'aller au-delà des décisions binaires p < 0,05 et de rapporter les tailles d'effet avec des intervalles de confiance.
Mesures courantes de la taille de l'effet :
- **d de Cohen** : différence de moyennes standardisée (d = 0,2 petit, 0,5 moyen, 0,8 grand)
- **Rapport de cotes (RC)** : rapport des cotes d'un résultat chez les exposés vs. les non exposés
- **Risque relatif (RR)** : rapport du risque dans le groupe traité vs. le groupe témoin
- **Réduction absolue du risque (RAR)** : différence des taux d'événements (cliniquement le plus intuitif)
- **Nombre nécessaire à traiter (NNT)** : 1/RAR — combien de patients doivent être traités pour qu'un en bénéficie
MetaLens AI extrait et affiche ces tailles d'effet à partir des résumés publiés, vous donnant une image plus riche que les valeurs p seules.
Prêt à essayer la méta-analyse par IA ?
Essayer MetaLens AI Gratuitement