Como o big data criou uma grande crise na ciência

p Os cientistas estão enfrentando uma crise de reprodutibilidade. Crédito:Y Photo Studio / shutterstock.com

p Há uma preocupação crescente entre os estudiosos de que, em muitas áreas da ciência, resultados publicados famosos tendem a ser impossíveis de reproduzir. p Esta crise pode ser severa. Por exemplo, em 2011, A Bayer HealthCare analisou 67 projetos internos e descobriu que eles poderiam se reproduzir em menos de 25%. Além disso, mais de dois terços dos projetos apresentavam grandes inconsistências. Mais recentemente, em novembro, uma investigação de 28 artigos importantes de psicologia descobriu que apenas metade poderia ser replicada.

p Descobertas semelhantes são relatadas em outros campos, incluindo medicina e economia. Esses resultados surpreendentes colocam a credibilidade de todos os cientistas em sérios problemas.

p O que está causando esse grande problema? Existem muitos fatores contribuintes. Como estatístico, Vejo grandes problemas com a forma como a ciência é feita na era do big data. A crise de reprodutibilidade é impulsionada em parte por análises estatísticas inválidas que são de hipóteses baseadas em dados - o oposto de como as coisas são tradicionalmente feitas.

p Método científico

p Em um experimento clássico, o estatístico e o cientista, primeiro juntos, elaboram uma hipótese. Em seguida, os cientistas realizam experimentos para coletar dados, que são posteriormente analisados por estatísticos.

p Um exemplo famoso desse processo é a história da "senhora degustando chá". Na década de 1920, em uma festa de acadêmicos, uma mulher afirmou ser capaz de dizer a diferença no sabor se o chá ou o leite fossem colocados primeiro em uma xícara. O estatístico Ronald Fisher duvidava que ela tivesse tal talento. Ele hipotetizou que, em oito xícaras de chá, preparada de forma que quatro xícaras tivessem leite adicionado primeiro e as outras quatro xícaras tivessem chá adicionado primeiro, o número de suposições corretas seguiria um modelo de probabilidade denominado distribuição hipergeométrica.

p Tal experimento foi feito com oito xícaras de chá enviadas para a senhora em uma ordem aleatória - e, de acordo com a lenda, ela categorizou todos os oito corretamente. Essa foi uma forte evidência contra a hipótese de Fisher. As chances de a senhora ter obtido todas as respostas corretas por meio de adivinhação aleatória eram de 1,4% extremamente baixas.

p Esse processo - hipotetize, em seguida, reúna os dados, então analise - é raro na era do big data. A tecnologia de hoje pode coletar grandes quantidades de dados, na ordem de 2,5 exabytes por dia.

p Embora isso seja uma coisa boa, a ciência muitas vezes se desenvolve em uma velocidade muito mais lenta, e, portanto, os pesquisadores podem não saber como ditar a hipótese certa na análise dos dados. Por exemplo, os cientistas agora podem coletar dezenas de milhares de expressões gênicas de pessoas, mas é muito difícil decidir se devemos incluir ou excluir um determinado gene na hipótese. Nesse caso, é atraente formar a hipótese com base nos dados. Embora tais hipóteses possam parecer convincentes, as inferências convencionais dessas hipóteses são geralmente inválidas. Isto é porque, em contraste com o processo de "degustação de chá para mulheres", a ordem de construção da hipótese e de visualização dos dados foi invertida.

p Problemas de dados

p Por que essa reversão pode causar um grande problema? Vamos considerar uma versão em big data da senhora do chá - um exemplo de "100 mulheres degustando chá".

p Suponha que haja 100 mulheres que não sabem a diferença entre o chá, mas tente adivinhar depois de provar todas as oito xícaras. Na verdade, existe uma chance de 75,6% de que pelo menos uma senhora felizmente acertasse todos os pedidos.

p Agora, se um cientista viu alguma senhora com um resultado surpreendente de todas as xícaras corretas e executou uma análise estatística para ela com a mesma distribuição hipergeométrica acima, então ele poderia concluir que essa senhora tinha a habilidade de dizer a diferença entre cada xícara. Mas esse resultado não é reproduzível. Se a mesma senhora fizesse o experimento novamente, muito provavelmente ela classificaria os copos de forma errada - não tendo a mesma sorte da primeira vez - já que ela não sabia realmente a diferença entre eles.

p Este pequeno exemplo ilustra como os cientistas podem "felizmente" ver sinais interessantes, mas espúrios, de um conjunto de dados. Eles podem formular hipóteses após esses sinais, em seguida, use o mesmo conjunto de dados para tirar as conclusões, alegando que esses sinais são reais. Pode demorar um pouco até que eles descubram que suas conclusões não são reproduzíveis. Este problema é particularmente comum na análise de big data devido ao grande tamanho dos dados, apenas por acaso alguns sinais espúrios podem ocorrer "felizmente".

p O que é pior, esse processo pode permitir que os cientistas manipulem os dados para produzir o resultado mais publicável. Estatísticos brincam sobre essa prática:"Se torturarmos os dados com força suficiente, eles vão te dizer algo. "No entanto, esse "algo" é válido e reproduzível? Provavelmente não.

p Análises mais fortes

p Como os cientistas podem evitar o problema acima e obter resultados reproduzíveis na análise de big data? A resposta é simples:seja mais cuidadoso.

p Se os cientistas querem resultados reproduzíveis de hipóteses baseadas em dados, então, eles precisam levar em consideração cuidadosamente o processo orientado por dados na análise. Os estatísticos precisam projetar novos procedimentos que forneçam inferências válidas. Já existem alguns em andamento.

p As estatísticas são a maneira ideal de extrair informações dos dados. Por esta natureza, é um campo que evolui com a evolução dos dados. Os problemas da era do big data são apenas um exemplo dessa evolução. Eu acho que os cientistas deveriam abraçar essas mudanças, pois eles levarão a oportunidades para o desenvolvimento de novas técnicas estatísticas, que, por sua vez, fornecerá descobertas científicas válidas e interessantes. p Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.