Crédito:Shutterstock
Desde os primeiros dias da mídia social, Tem havido entusiasmo sobre como os rastros de dados deixados pelos usuários podem ser explorados para o estudo do comportamento humano. Hoje em dia, pesquisadores que antes estavam restritos a pesquisas ou experimentos em laboratórios têm acesso a enormes quantidades de dados do "mundo real" das mídias sociais.
As oportunidades de pesquisa possibilitadas pelos dados das redes sociais são inegáveis. Contudo, pesquisadores muitas vezes analisam esses dados com ferramentas que não foram projetadas para gerenciar o tipo de grande, conjuntos de dados observacionais barulhentos que você encontra nas redes sociais.
Exploramos problemas que os pesquisadores podem encontrar devido a essa incompatibilidade entre dados e métodos.
O que descobrimos é que os métodos e estatísticas comumente usados para fornecer evidências para descobertas científicas aparentemente significativas também podem parecer apoiar afirmações sem sentido.
Ciência absurda
A motivação para nosso artigo vem de uma série de estudos de pesquisa que deliberadamente apresentam resultados científicos absurdos.
Um estudo de imagem cerebral pareceu mostrar a atividade neural de um salmão morto com a tarefa de identificar emoções em fotos. Uma análise de estatísticas longitudinais de registros de saúde pública sugeriu que a acne, altura, e as dores de cabeça são contagiosas. E uma análise da tomada de decisão humana aparentemente indicou que as pessoas podem julgar com precisão o tamanho da população de diferentes cidades classificando-as em ordem alfabética.
Por que um pesquisador sairia de seu caminho para explorar ideias tão ridículas? O valor desses estudos não está em apresentar um novo achado substantivo. Nenhum pesquisador sério iria discutir, por exemplo, que um salmão morto tem uma perspectiva das emoções nas fotos.
Em vez, os resultados absurdos destacam problemas com os métodos usados para alcançá-los. Nossa pesquisa explora se os mesmos problemas podem afetar os estudos que usam dados de mídia social. E descobrimos que sim.
Resultados positivos e negativos
Quando um pesquisador busca responder a uma questão de pesquisa, o método que eles usam deve ser capaz de fazer duas coisas:
Por exemplo, imagine que você tem uma dor crônica nas costas e faz um exame médico para descobrir a causa. O teste identifica um disco desalinhado em sua coluna. Este achado pode ser importante e informar um plano de tratamento.
Contudo, se você descobrir que o mesmo teste identifica esse disco desalinhado em uma grande proporção da população que não tem dor crônica nas costas, a descoberta se torna muito menos informativa para você.
O fato de o teste falhar em identificar um relevante, característica distintiva de casos negativos (sem dor nas costas) de casos positivos (dor nas costas) não significa que o disco desalinhado em sua coluna seja inexistente. Esta parte da descoberta é tão "real" quanto qualquer descoberta. No entanto, a falha significa que o resultado não é útil:"evidência" que é tão provável de ser encontrada quando há um efeito significativo (neste caso, dor nas costas) como quando não há simplesmente não é diagnóstico, e, como resultado, tais evidências não são informativas.
Contágio XYZ
Usando o mesmo raciocínio, avaliamos métodos comumente usados para analisar dados de mídia social - chamados de "teste de significância de hipótese nula" e "estatística correlacional" - fazendo uma pergunta de pesquisa absurda.
Estudos anteriores e atuais tentaram identificar quais fatores influenciam as decisões dos usuários do Twitter de retuitar outros tweets. Isso é interessante como uma janela para o pensamento humano e porque compartilhar mensagens de novo é um mecanismo-chave pelo qual as mensagens são amplificadas ou disseminadas nas redes sociais.
Portanto, decidimos analisar os dados do Twitter usando os métodos padrão acima para ver se um efeito sem sentido que chamamos de "contágio de XYZ" influencia os retuítes. Especificamente, nós perguntamos, "Será que o número de Xs, Sim, e Zs em um tweet aumentam a probabilidade de propagação? "
Ao analisar seis conjuntos de dados contendo centenas de milhares de tweets, a "resposta" que encontramos foi sim. Por exemplo, em um conjunto de dados de 172, 697 tweets sobre COVID-19, a presença de um X, Y, ou Z em um tweet pareceu aumentar o alcance da mensagem por um fator de 8%.
Desnecessário dizer, não acreditamos na presença de Xs, Sim, e Zs é um fator central na decisão das pessoas de retuitar uma mensagem no Twitter.
Contudo, como o teste médico para diagnosticar dores nas costas, nossa descoberta mostra que, às vezes, os métodos de análise de dados de mídia social podem "revelar" efeitos onde não deveria haver nenhum. Isso levanta questões sobre o quão significativos e informativos são os resultados obtidos pela aplicação dos métodos atuais das ciências sociais aos dados da mídia social.
Conforme os pesquisadores continuam a analisar dados de mídia social e identificar fatores que moldam a evolução da opinião pública, sequestrar nossa atenção, ou de outra forma explicar nosso comportamento, devemos pensar criticamente sobre os métodos subjacentes a tais descobertas e reconsiderar o que podemos aprender com eles.
O que é uma descoberta "significativa"?
As questões levantadas em nosso artigo não são novas, e há, de fato, muitas práticas de pesquisa que foram desenvolvidas para garantir que os resultados sejam significativos e robustos.
Por exemplo, os pesquisadores são encorajados a pré-registrar suas hipóteses e planos de análise antes de iniciar um estudo para evitar um tipo de coleta seletiva de dados chamada "p-hacking". Outra prática útil é verificar se os resultados estão estáveis após a remoção de outliers e controle de covariáveis. Também importantes são os estudos de replicação, que avaliam se os resultados obtidos em um experimento podem ser encontrados novamente quando o experimento é repetido em condições semelhantes.
Essas práticas são importantes, mas por si só não são suficientes para lidar com o problema que identificamos. Embora seja necessário desenvolver práticas de pesquisa padronizadas, a comunidade de pesquisa deve primeiro pensar criticamente sobre o que torna uma descoberta em dados de mídia social significativa.
Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.