É o fim da significância estatística? A batalha para tornar a ciência mais incerta

Um guia rápido para valores p. Crédito:Repapetilto / Wikimedia, CC BY-SA

O mundo científico está agitado seguindo recomendações de duas das mais prestigiadas revistas acadêmicas - The American Statistician e Natureza - que o termo "significância estatística" seja retirado.

Em sua introdução à edição especial do The American Statistician sobre o tema, os editores da revista insistem em "mudar para um mundo além de 'p <0,05, '"o famoso limite de 5 por cento para determinar se o resultado de um estudo é estatisticamente significativo. Se um estudo passar neste teste, significa que a probabilidade de um resultado ser devido apenas ao acaso é inferior a 5 por cento. Freqüentemente, isso significa que vale a pena prestar atenção ao estudo.

A mensagem básica da revista - mas não necessariamente o consenso dos 43 artigos desta edição, uma das quais eu contribuí - foi que os cientistas, antes de mais nada, deveriam "abraçar a incerteza" e "ser atenciosos, aberto e modesto. "

Embora essas sejam qualidades excelentes, Acredito que os cientistas não devem permitir que obscureçam a precisão e o rigor que a ciência exige. A incerteza é inerente aos dados. Se os cientistas enfraquecerem ainda mais o já muito fraco limite de 0,05, então, isso inevitavelmente tornaria as descobertas científicas mais difíceis de interpretar e menos prováveis de serem confiáveis.

Empilhando dificuldade sobre dificuldade

Na prática tradicional da ciência, um cientista gera uma hipótese e projeta experimentos para coletar dados em apoio às hipóteses. Ele então coleta dados e realiza análises estatísticas para determinar se os dados de fato sustentam a hipótese.

Uma análise estatística padrão é o valor p. Isso gera um número entre 0 e 1 que indica forte, suporte marginal ou fraco de uma hipótese.

Mas eu me preocupo que abandonar os padrões baseados em evidências para esses julgamentos tornará ainda mais difícil projetar experimentos, muito menos avaliar seus resultados. Por exemplo, como alguém poderia determinar um tamanho de amostra apropriado sem um nível de precisão almejado? E como os resultados da pesquisa devem ser interpretados?

Estas são questões importantes, não apenas para pesquisadores em agências de financiamento ou reguladoras, mas para qualquer pessoa cuja vida diária seja influenciada por julgamentos estatísticos. Isso inclui qualquer pessoa que tome remédios ou faça uma cirurgia, dirige ou anda em veículos, é investido no mercado de ações, tem seguro de vida ou depende de previsões meteorológicas precisas ... e a lista continua. De forma similar, muitas agências reguladoras contam com estatísticas para tomar decisões todos os dias.

Os cientistas devem ter a linguagem para indicar que um estudo, ou grupo de estudos, forneceu evidências significativas em favor de um relacionamento ou um efeito. Significância estatística é o termo que serve a esse propósito.

Os grupos por trás deste movimento

A hostilidade ao termo "significância estatística" surge de dois grupos.

O primeiro é em grande parte formado por cientistas decepcionados quando seus estudos produzem p =0,06. Em outras palavras, aqueles cujos estudos simplesmente não fazem o corte. Em grande parte, são cientistas que consideram o padrão 0,05 um obstáculo muito alto para serem publicados em periódicos acadêmicos que são uma importante fonte de conhecimento acadêmico - bem como estabilidade e promoção.

O segundo grupo está preocupado com a falha em replicar estudos científicos, e eles culpam os testes de significância em parte por essa falha.

Por exemplo, um grupo de cientistas repetiu recentemente 100 experimentos psicológicos publicados. Noventa e sete dos 100 estudos originais relataram um achado estatisticamente significativo (p <0,05), mas apenas 36 das experiências repetidas também foram capazes de alcançar um resultado significativo.

O fracasso de tantos estudos em replicar pode ser parcialmente atribuído ao viés de publicação, que resulta quando apenas descobertas significativas são publicadas. O viés de publicação faz com que os cientistas superestimam a magnitude de um efeito, como a relação entre duas variáveis, tornando a replicação menos provável.

Para complicar ainda mais a situação, pesquisas recentes mostram que o ponto de corte do valor p não fornece muitas evidências de que um relacionamento real foi encontrado. Na verdade, em estudos de replicação em ciências sociais, agora parece que os valores de p próximos do limite padrão de 0,05 provavelmente significam que uma afirmação científica está errada. Só quando o valor p é muito menor, talvez menos de 0,005, que as afirmações científicas provavelmente mostrarão um relacionamento real.

A confusão que leva a este movimento

Muitos não estatísticos confundem o valor p com a probabilidade de que nenhuma descoberta foi feita.

Vejamos um exemplo do artigo da Nature. Dois estudos examinaram o aumento do risco de doença após a ingestão de um medicamento. Ambos os estudos estimaram que os pacientes tinham um risco 20% maior de contrair a doença se tomarem o medicamento do que se não o fizessem. Em outras palavras, ambos os estudos estimaram o risco relativo em 1,20.

Contudo, o risco relativo estimado a partir de um estudo foi mais preciso do que o outro, porque sua estimativa foi baseada em resultados de muitos mais pacientes. Assim, a estimativa de um estudo foi estatisticamente significativa, e a estimativa do outro não.

Os autores citam essa inconsistência - que um estudo obteve um resultado significativo e o outro não - como evidência de que a significância estatística leva a interpretações errôneas dos resultados científicos.

Contudo, Eu sinto que um resumo razoável é simplesmente que um estudo coletou evidências estatisticamente significativas e outro não, mas as estimativas de ambos os estudos sugeriram que o risco relativo estava próximo de 1,2.

Para onde ir a partir daqui

Concordo com o artigo da Nature e com o editorial do The American Statistician de que os dados coletados de todos os estudos científicos bem elaborados devem ser disponibilizados ao público, com resumos abrangentes de análises estatísticas. Junto com os valores-p de cada estudo, é importante publicar estimativas de tamanhos de efeito e intervalos de confiança para essas estimativas, bem como descrições completas de todas as análises de dados e processamento de dados.

Por outro lado, apenas estudos que fornecem fortes evidências em favor de associações importantes ou novos efeitos devem ser publicados em periódicos de primeira linha. Para essas revistas, os padrões de evidência devem ser aumentados exigindo valores-p menores para o relatório inicial de relacionamentos e novas descobertas. Em outras palavras, fazer com que os cientistas publiquem resultados sobre os quais tenham ainda mais certeza.

O resultado final é que o desmantelamento dos padrões aceitos de evidência estatística diminuirá a incerteza que os cientistas têm ao publicar suas próprias pesquisas. Mas também aumentará a incerteza do público em aceitar as descobertas que eles publicam - e isso pode ser problemático.

Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.