A rotina diária da fábrica de boatos:aprendizado de máquina decifra notícias falsas
Crédito:Pixabay/CC0 Public Domain
Pesquisa publicada no
International Journal of Cloud Computing analisa como o aprendizado de máquina pode nos permitir analisar a natureza e as características das atualizações de mídia social e detectar quais dessas atualizações estão adicionando energia ao boato em vez de serem factuais.
As notícias falsas estão conosco desde que a primeira fofoca passou em um boato no passado. Mas, com o advento das mídias sociais, agora é muito mais fácil espalhar notícias falsas, desinformação e propaganda para uma vasta audiência global com pouca restrição. Um boato pode fazer ou quebrar uma reputação. Hoje em dia, isso pode acontecer em todo o mundo através da câmara de eco amplificada das mídias sociais.
Mohammed Al-Sarem, Muna Al-Harby, Faisal Saeed e Essa Abdullah Hezzam, da Taibah University em Medina, Arábia Saudita, pesquisaram as diferentes abordagens de pré-processamento de texto para abordar as grandes quantidades de dados que saem diariamente das mídias sociais . O quão bem essas abordagens funcionam na análise subsequente de detecção de rumores é fundamental para o quão bem as notícias falsas podem ser detectadas e interrompidas. A equipe testou várias abordagens em um conjunto de dados de tweets relacionados a notícias políticas da Arábia Saudita.
O pré-processamento pode observar as três características mais relevantes de uma atualização antes que a análise do texto seja realizada e separar as diferentes atualizações de acordo:Primeiro, pode observar o uso de pontos de interrogação e exclamação e a contagem de palavras. Em segundo lugar, ele pode verificar se uma conta é verificada ou tem propriedades mais frequentemente associadas a uma conta falsa ou de bot, como contagem de tweets, respostas, retuítes etc. nome e o logotipo ou foto do perfil do usuário.
Os pesquisadores descobriram que o pré-processamento pode melhorar a análise significativamente quando a saída é alimentada para qualquer classificador de máquina de vetor de suporte (SVM), multinomial naïve Bayes (MNB) e K-neest neighbor (KNN). No entanto, esses classificadores reagem de maneira diferente dependendo de qual combinação de técnicas de pré-processamento é usada. Por exemplo, remover palavras de parada e limpar tags de codificação, como HTML, lematização e tokenização.
+ Explorar mais Estudo mostra que usuários verificados estão entre os maiores culpados quando se trata de compartilhar notícias falsas