Desculpa, número errado:benchmark estatístico está sob fogo

p Neste 1º de julho, Foto de arquivo de 1960, um químico trabalha em um laboratório em Cambridge, Mass. Por décadas, os cientistas usaram "significância estatística" para estimar se seus resultados são confiáveis ou apenas casualidades. Há muito tempo é criticado, mas 2019 trouxe duas ligações importantes para se livrar dele completamente. (AP Photo / Peter J. Carroll)

p No início deste outono, o Dr. Scott Solomon apresentou os resultados de um grande estudo com medicamentos para o coração a uma audiência de colegas cardiologistas em Paris. p Os resultados que Solomon estava descrevendo pareciam promissores:os pacientes que tomaram o medicamento tiveram uma taxa menor de hospitalização e morte do que os pacientes que tomaram um medicamento diferente.

p Em seguida, ele mostrou ao público outro número.

p "Houve alguns suspiros, ou 'Ooohs, '' Salomão, do Hospital Brigham and Women's de Harvard, relembrado recentemente. "Muitas pessoas ficaram desapontadas."

p Um analista de investimentos reagiu reduzindo sua previsão de vendas de pico da droga - em US $ 1 bilhão.

p O que aconteceu?

p O número que causou os suspiros foi 0,059. O público estava procurando por algo abaixo de 0,05.

p O que significava é que os resultados promissores de Solomon haviam entrado em conflito com um conceito estatístico do qual você talvez nunca tenha ouvido falar:significância estatística. É uma coisa tudo ou nada. Seus resultados estatísticos são significativos, o que significa que são confiáveis, ou não significativo, indicando uma chance inaceitavelmente alta de serem apenas um acaso.

p O conceito é usado há décadas. Ele exerce bastante influência sobre como os resultados científicos são avaliados, quais estudos são publicados, e quais medicamentos chegam às drogarias.

p Mas este ano trouxe duas ligações importantes de críticos, inclusive de dentro do mundo misterioso das estatísticas, para se livrar dele - em parte por preocupação de que rejeite prematuramente resultados como os de Salomão.

p A significância é refletida em um cálculo que produz algo chamado valor p. Usualmente, se isso produzir um valor p inferior a 0,05, os resultados do estudo são considerados significativos. Se não, o estudo falhou no teste.

p O estudo de Salomão falhou por pouco. Portanto, a aparente vantagem de seu medicamento em relação ao outro foi considerada insignificante. Por este critério, não houve diferença "real".

p Solomon acredita que a droga de fato produziu um benefício real e que um estudo maior ou mais duradouro poderia ter alcançado significância estatística.

p "Eu não estou chorando sobre o leite derramado, "disse ele." Nós definimos as regras. A questão é, essa é a maneira certa de fazer isso? "

p Ele não é o único a fazer essa pergunta.

p "É uma aposta segura que pessoas sofreram ou morreram porque os cientistas (e editores, reguladores, jornalistas e outros) usaram testes de significância para interpretar os resultados, "Epidemiologista Kenneth Rothman, da RTI Health Solutions in Research Triangle Park, N.C., e a Boston University escreveram em 2016.

p O perigo é que um achado médico potencialmente benéfico pode ser ignorado porque um estudo não atinge significância estatística, e uma prática médica prejudicial ou infrutífera poderia ser aceita simplesmente porque o faz, ele disse em um e-mail.

p O corte do valor p para significância é "uma medida que ganhou status de porteiro ... não apenas para publicação, mas para que as pessoas levem seus resultados a sério, "diz o estatístico da Northwestern University Blake McShane.

p Não é de admirar que um estatístico, em uma palestra recente com jornalistas sobre o assunto pouco antes do Halloween, exibiu um slide de uma lanterna de abóbora esculpida com esta mira, obviamente aterrorizante para qualquer pessoa na ciência ou na medicina:"P =0,06."

p McShane e outros argumentam que a importância do limite do valor p não é merecida. Ele foi co-autor de uma chamada para abolir a noção de significância estatística, que foi publicado na prestigiosa revista Nature este ano. A proposta atraiu mais de 800 co-signatários.

p Até mesmo a American Statistical Association, que nunca emitiu qualquer declaração formal sobre práticas estatísticas específicas, desabou em 2016 ao usar qualquer tipo de corte de valor-p dessa forma. E este ano foi mais longe, declarando em uma edição especial com 43 artigos sobre o assunto, “É hora de parar de usar o termo 'estatisticamente significativo' inteiramente”.

p Qual é o problema? McShane e outros listam vários:

p - O valor P não mede diretamente a probabilidade de que o resultado de um experimento seja apenas um acaso. O que realmente representa é amplamente mal compreendido, até mesmo por cientistas e alguns estatísticos, disse Nicole Lazar, professor de estatística da Universidade da Geórgia.

p - Usar um rótulo de significância estatística "dá mais certeza do que realmente é garantido, "Lazar disse." Devemos reconhecer o fato de que há incerteza em nossas descobertas.

p - O corte tradicional de 0,05 é arbitrário.

p - A significância estatística não significa necessariamente "significativa" - ou que uma descoberta é importante prática ou cientificamente, Lazar diz. Pode até não ser verdade:Solomon cita um grande estudo de drogas para o coração que encontrou um efeito significativo no tratamento de pacientes nascidos em agosto, mas não em julho, obviamente, apenas uma flutuação aleatória.

p - O termo "significância estatística" define uma meta para os pesquisadores, uma medida clara de sucesso ou fracasso. Isso significa que os pesquisadores podem tentar um pouco demais para alcançá-lo. Eles podem deliberadamente manipular o sistema para obter um valor p aceitável, ou apenas escolha inconscientemente métodos analíticos que ajudem, McShane e Lazar disseram.

p - Isso pode distorcer os efeitos não apenas de experimentos individuais, mas também os resultados cumulativos de estudos sobre um determinado tópico, para que, no geral, um medicamento possa ter uma aparência "muito melhor do que realmente é, "Disse McShane.

p O que deve ser feito em vez disso? Abolir a linha brilhante de significância estatística, e apenas relatar o valor p junto com outras análises para dar um esboço mais abrangente do que o resultado do teste pode significar, McShane e outros dizem.

p Pode não ser tão claro quanto uma simples declaração de significado ou insignificância, mas "teremos uma ideia melhor do que está acontecendo, "Lazar disse." Acho que será mais fácil eliminar o mau trabalho.

p Nem todo mundo acredita em acabar com a significância estatística. O proeminente pesquisador de Stanford, Dr. John Ioannidis, diz que a abolição "poderia promover o preconceito. Um absurdo irrefutável prevaleceria". Embora ele concorde que um padrão de valor p inferior a 0,05 é fraco e facilmente abusado, ele acredita que os cientistas deveriam usar um valor p mais rigoroso ou outra medida estatística em vez disso, especificado antes de o experimento ser realizado.

p McShane disse que embora os apelos para a abolição da significância estatística tenham sido levantados há anos, parece haver mais impulso ultimamente.

Primeira evidência de dinossauros polares com penas encontrados na Austrália

Cientistas exploram ossos de múmias egípcias com raios X e luz infravermelha

Outros