🔬MetaLens AI
Retour au blog
Éducation2026-04-107 min de lecture

Valeurs p et signification statistique dans la recherche médicale

Qu'est-ce qu'une valeur p ?

La valeur p est l'une des statistiques les plus utilisées et les plus mal comprises dans la recherche médicale. La définition formelle : la valeur p est la probabilité d'observer des résultats au moins aussi extrêmes que ceux trouvés, en supposant que l'hypothèse nulle est vraie. L'hypothèse nulle est généralement « il n'y a aucun effet » ou « les deux traitements sont égaux ». Une petite valeur p signifie : si il n'y avait vraiment aucun effet, il serait très improbable de voir des résultats aussi extrêmes par hasard. Une valeur p de 0,03 signifie : si l'hypothèse nulle était vraie, vous observeriez des résultats aussi extrêmes ou plus extrêmes seulement 3 % du temps par hasard.

Ce que p < 0,05 ne signifie PAS

Le seuil p < 0,05 est profondément ancré dans la recherche médicale, mais il est souvent interprété incorrectement : **p < 0,05 ne signifie PAS :** - Il y a 95 % de chances que le résultat soit correct - Le traitement fonctionne définitivement - L'effet est cliniquement significatif - L'étude sera reproduite - L'hypothèse nulle est fausse **p < 0,05 signifie :** - Si l'hypothèse nulle était vraie, des résultats aussi extrêmes se produiraient moins de 5 % du temps par hasard - La découverte satisfait un seuil arbitraire de « signification statistique » Le seuil de 0,05 a été choisi par Ronald Fisher dans les années 1920 comme règle approximative — pas comme une loi fondamentale de la nature.

Signification statistique vs. signification clinique

Un résultat statistiquement significatif n'est pas nécessairement cliniquement significatif. **Exemple :** Un grand essai avec 50 000 patients montre qu'un nouveau médicament réduit la pression artérielle de 1 mmHg (p = 0,0001). C'est hautement statistiquement significatif mais cliniquement sans signification — une différence de 1 mmHg n'a aucun impact sur les résultats cardiovasculaires. Inversement, un petit essai avec 30 patients montre qu'un médicament réduit la taille de la tumeur de 40 % (p = 0,08). Cela manque le seuil de 0,05 mais peut représenter un effet véritablement important qui mérite une investigation plus approfondie. Demandez toujours : Quelle est la taille de l'effet ? Est-elle cliniquement significative ? Quel est l'intervalle de confiance ? Inclut-il la différence minimale cliniquement importante ?

Les intervalles de confiance sont plus informatifs

Un intervalle de confiance (IC) à 95 % vous en dit plus qu'une valeur p seule. Si l'IC à 95 % pour un rapport de cotes est de 1,2 à 3,4 : - La meilleure estimation est le point médian (environ 2,0) - Vous pouvez avoir 95 % de confiance que le vrai effet se situe entre 1,2 et 3,4 - Puisque 1,0 (aucun effet) est exclu, le résultat est statistiquement significatif Les intervalles de confiance communiquent : - La direction de l'effet - L'ampleur de l'effet - La précision de l'estimation - Si l'effet est cliniquement significatif Un IC allant de 0,9 à 12,0 est techniquement significatif si 1,0 est exclu, mais l'énorme plage vous indique que l'estimation est très imprécise.

Comparaisons multiples et le problème du p-hacking

Si vous effectuez 20 tests statistiques et utilisez p < 0,05 comme seuil, vous attendriez 1 résultat « significatif » purement par hasard — même si rien ne se passe réellement. C'est ce qu'on appelle le problème des comparaisons multiples, et cela conduit au p-hacking : effectuer de nombreuses analyses et ne rapporter sélectivement que celles qui atteignent p < 0,05. Pour y remédier : - **Correction de Bonferroni** : diviser le seuil par le nombre de comparaisons (par exemple, 0,05/10 = 0,005) - **Pré-enregistrement** : s'engager sur votre résultat principal avant de collecter les données - **Taux de fausses découvertes (TFD)** : contrôle la proportion attendue de faux positifs Lorsque vous lisez une étude avec plusieurs résultats, vérifiez si le résultat principal était pré-spécifié et si des corrections pour comparaisons multiples ont été appliquées.

Au-delà des valeurs p : les tailles d'effet

L'American Statistical Association et de nombreuses revues recommandent maintenant d'aller au-delà des décisions binaires p < 0,05 et de rapporter les tailles d'effet avec des intervalles de confiance. Mesures courantes de la taille de l'effet : - **d de Cohen** : différence de moyennes standardisée (d = 0,2 petit, 0,5 moyen, 0,8 grand) - **Rapport de cotes (RC)** : rapport des cotes d'un résultat chez les exposés vs. les non exposés - **Risque relatif (RR)** : rapport du risque dans le groupe traité vs. le groupe témoin - **Réduction absolue du risque (RAR)** : différence des taux d'événements (cliniquement le plus intuitif) - **Nombre nécessaire à traiter (NNT)** : 1/RAR — combien de patients doivent être traités pour qu'un en bénéficie MetaLens AI extrait et affiche ces tailles d'effet à partir des résumés publiés, vous donnant une image plus riche que les valeurs p seules.

Prêt à essayer la méta-analyse par IA ?

Essayer MetaLens AI Gratuitement