Na tentativa de resolver o problema crescente de notícias falsas online, um algoritmo que identifica padrões na linguagem pode ajudar a distinguir entre artigos de notícias factuais e imprecisos. Crédito:Shutterstock
Você já leu algo online e compartilhou entre suas redes, apenas para descobrir que era falso?
Como engenheira de software e linguista computacional que passa a maior parte de seu trabalho e até mesmo horas de lazer em frente a uma tela de computador, Estou preocupado com o que leio online. Na era das redes sociais, muitos de nós consumimos fontes de notícias não confiáveis. Estamos expostos a um fluxo descontrolado de informações em nossas redes sociais - especialmente se passarmos muito tempo examinando postagens aleatórias de nossos amigos no Twitter e no Facebook.
Meus colegas e eu no Laboratório de Processamento de Discurso da Simon Fraser University conduzimos pesquisas sobre as características linguísticas das notícias falsas.
Os efeitos das notícias falsas
Um estudo no Reino Unido descobriu que cerca de dois terços dos adultos entrevistados lêem regularmente notícias no Facebook, e metade deles teve a experiência de inicialmente acreditar em uma notícia falsa. Outro estudo, conduzido por pesquisadores do Instituto de Tecnologia de Massachusetts, focou nos aspectos cognitivos da exposição a notícias falsas e descobriu que, na média, os leitores de notícias acreditam em uma manchete falsa em pelo menos 20% das vezes.
Notícias falsas agora estão se espalhando 10 vezes mais rápido do que notícias reais, e o problema das notícias falsas ameaça seriamente nossa sociedade.
Por exemplo, durante as eleições de 2016 nos Estados Unidos, um número surpreendente de cidadãos americanos acreditava e compartilhava uma conspiração patentemente falsa, alegando que Hilary Clinton estava ligada a uma quadrilha de tráfico de humanos em uma pizzaria. O dono do restaurante recebeu ameaças de morte, e um crente apareceu no restaurante com uma arma. Isso - e uma série de outras notícias falsas distribuídas durante a temporada eleitoral - teve um impacto inegável nos votos das pessoas.
Muitas vezes é difícil encontrar a origem de uma história depois de grupos partidários, bots de redes sociais e amigos de amigos o compartilharam milhares de vezes. Sites de checagem de fatos, como Snopes e Buzzfeed, podem abordar apenas uma pequena parte dos rumores mais populares.
A tecnologia por trás da Internet e da mídia social possibilitou essa disseminação de desinformação; talvez seja hora de perguntar o que essa tecnologia tem a oferecer para resolver o problema.
Brindes em estilo de escrita
Avanços recentes no aprendizado de máquina possibilitaram que os computadores concluíssem instantaneamente tarefas que teriam levado muito mais tempo para os humanos. Por exemplo, Existem programas de computador que ajudam a polícia a identificar rostos de criminosos em questão de segundos. Este tipo de inteligência artificial treina algoritmos para classificar, detectar e tomar decisões.
Quando o aprendizado de máquina é aplicado ao processamento de linguagem natural, é possível construir sistemas de classificação de texto que reconheçam um tipo de texto de outro.
Durante os últimos anos, cientistas de processamento de linguagem natural tornaram-se mais ativos na construção de algoritmos para detectar desinformação; isso nos ajuda a entender as características das notícias falsas e a desenvolver tecnologia para ajudar os leitores.
Uma abordagem encontra fontes relevantes de informação, atribui a cada fonte uma pontuação de credibilidade e, em seguida, os integra para confirmar ou desmascarar uma determinada reivindicação. Essa abordagem depende muito do rastreamento da fonte original das notícias e da pontuação de sua credibilidade com base em uma variedade de fatores.
Uma segunda abordagem examina o estilo de redação de um artigo de notícias, e não sua origem. As características linguísticas de uma obra escrita podem nos dizer muito sobre os autores e seus motivos. Por exemplo, palavras e frases específicas tendem a ocorrer com mais frequência em um texto enganoso em comparação com um escrito honestamente.
Detectando notícias falsas
Nossa pesquisa identifica características linguísticas para detectar notícias falsas usando aprendizado de máquina e tecnologia de processamento de linguagem natural. Nossa análise de uma grande coleção de artigos de notícias verificados sobre uma variedade de tópicos mostra que, na média, artigos de notícias falsos usam mais expressões que são comuns na incitação ao ódio, bem como palavras relacionadas ao sexo, morte e ansiedade. Notícias genuínas, por outro lado, contém uma proporção maior de palavras relacionadas a trabalho (negócios) e dinheiro (economia).
Isso sugere que uma abordagem estilística combinada com o aprendizado de máquina pode ser útil para detectar notícias suspeitas.
Nosso detector de notícias falsas é construído com base em características linguísticas extraídas de um grande corpo de artigos de notícias. Ele pega um pedaço de texto e mostra como ele é semelhante às notícias falsas e reais que viu antes. (Experimente!)
O principal desafio, Contudo, é construir um sistema que pode lidar com a vasta variedade de tópicos de notícias e a rápida mudança de manchetes online, porque algoritmos de computador aprendem com amostras e se essas amostras não são suficientemente representativas de notícias online, as previsões do modelo não seriam confiáveis.
Uma opção é fazer com que especialistas humanos colham e rotulem uma grande quantidade de artigos de notícias falsos e reais. Esses dados permitem que um algoritmo de aprendizado de máquina encontre recursos comuns que continuam ocorrendo em cada coleção, independentemente de outras variedades. Em última análise, o algoritmo será capaz de distinguir com confiança entre artigos de notícias reais ou falsos nunca vistos anteriormente.
Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.