Educação2026-04-107 min de leitura
Valores de p e Significância Estatística na Pesquisa Médica
O Que É um Valor de p?
O valor de p é uma das estatísticas mais amplamente usadas e mais amplamente mal compreendidas na pesquisa médica.
A definição formal: o valor de p é a probabilidade de observar resultados tão extremos quanto os encontrados, assumindo que a hipótese nula é verdadeira.
A hipótese nula geralmente é "não há efeito" ou "os dois tratamentos são iguais". Um valor de p pequeno significa: se realmente não houvesse efeito, seria muito improvável ver resultados tão extremos por acaso.
Um valor de p de 0,03 significa: se a hipótese nula fosse verdadeira, você veria resultados tão extremos ou mais extremos apenas 3% das vezes por acaso.
O Que p < 0,05 NÃO Significa
O limiar de p < 0,05 está profundamente enraizado na pesquisa médica, mas é frequentemente interpretado incorretamente:
**p < 0,05 NÃO significa:**
- Há 95% de chance de o resultado estar correto
- O tratamento definitivamente funciona
- O efeito é clinicamente relevante
- O estudo será replicado
- A hipótese nula é falsa
**p < 0,05 SIGNIFICA:**
- Se a hipótese nula fosse verdadeira, resultados tão extremos ocorreriam menos de 5% das vezes por acaso
- O achado atende a um limiar arbitrário para "significância estatística"
O limiar de 0,05 foi escolhido por Ronald Fisher na década de 1920 como uma regra prática — não uma lei fundamental da natureza.
Significância Estatística vs. Significância Clínica
Um resultado estatisticamente significativo não é necessariamente clinicamente relevante.
**Exemplo:** Um grande ensaio com 50.000 pacientes descobre que um novo medicamento reduz a pressão arterial em 1 mmHg (p = 0,0001). Isso é altamente significativo estatisticamente, mas clinicamente irrelevante — uma diferença de 1 mmHg não tem impacto nos desfechos cardiovasculares.
Em contrapartida, um pequeno ensaio com 30 pacientes descobre que um medicamento reduz o tamanho do tumor em 40% (p = 0,08). Isso não atinge o limiar de 0,05, mas pode representar um efeito genuinamente importante que merece investigação adicional.
Sempre pergunte: Qual é o tamanho do efeito? É clinicamente relevante? Qual é o intervalo de confiança? Inclui a diferença clinicamente importante mínima?
Intervalos de Confiança São Mais Informativos
Um intervalo de confiança (IC) de 95% informa mais do que um valor de p isolado.
Se o IC de 95% para uma razão de chances for 1,2 a 3,4:
- A melhor estimativa é o ponto médio (aproximadamente 2,0)
- Você pode ter 95% de confiança de que o efeito verdadeiro está entre 1,2 e 3,4
- Como 1,0 (sem efeito) está excluído, o resultado é estatisticamente significativo
Intervalos de confiança comunicam:
- A direção do efeito
- A magnitude do efeito
- A precisão da estimativa
- Se o efeito é clinicamente relevante
Um IC que vai de 0,9 a 12,0 é tecnicamente significativo se 1,0 estiver excluído, mas o enorme intervalo indica que a estimativa é muito imprecisa.
Comparações Múltiplas e o Problema do P-hacking
Se você realizar 20 testes estatísticos e usar p < 0,05 como limiar, esperaria 1 resultado "significativo" apenas por acaso — mesmo que nada esteja realmente acontecendo.
Isso é chamado de problema de comparações múltiplas, e leva ao p-hacking: realizar muitas análises e relatar seletivamente as que atingem p < 0,05.
Para resolver isso:
- **Correção de Bonferroni**: Divida o limiar pelo número de comparações (ex.: 0,05/10 = 0,005)
- **Pré-registro**: Comprometa-se com seu desfecho primário antes de coletar dados
- **Taxa de Falsas Descobertas (FDR)**: Controla a proporção esperada de falsos positivos
Ao ler um estudo com múltiplos desfechos, verifique se o desfecho primário foi pré-especificado e se correções para comparações múltiplas foram aplicadas.
Além dos Valores de p: Tamanhos de Efeito
A Associação Americana de Estatística e muitos periódicos agora recomendam ir além das decisões binárias de p < 0,05 e relatar tamanhos de efeito com intervalos de confiança.
Medidas comuns de tamanho de efeito:
- **d de Cohen**: Diferença de médias padronizada (d = 0,2 pequeno, 0,5 médio, 0,8 grande)
- **Razão de Chances (OR)**: Razão das chances do desfecho em expostos vs. não expostos
- **Risco Relativo (RR)**: Razão do risco no grupo tratado vs. grupo controle
- **Redução Absoluta do Risco (RAR)**: Diferença nas taxas de eventos (clinicamente mais intuitivo)
- **Número Necessário para Tratar (NNT)**: 1/RAR — quantos pacientes precisam de tratamento para que um se beneficie
O MetaLens AI extrai e exibe esses tamanhos de efeito dos resumos publicados, proporcionando uma visão mais rica do que apenas os valores de p.
Pronto para experimentar meta-análise com IA?
Experimente MetaLens AI Grátis