Crédito:iStock / champja
Vivemos em uma era de muita informação - um fluxo interminável de atualizações de status, memes, repostagens, infográficos, citações e hashtags rolam diariamente por meio de nossos feeds de mídia social, destinada a expressar pontos de vista, angariar solidariedade, fornecer informações, mudar mentes ou causar polêmica.
O problema é, o usuário médio de navegador / mídia social online não tem tempo ou recursos para investigar a legitimidade ou proveniência de tudo o que aparece em seus feeds. E é essa vulnerabilidade que geradores de conteúdo menos escrupulosos exploram para espalhar informações incorretas, com resultados que podem variar de um pouco de vergonha cara a cara até mudanças de vida ou consequências potencialmente mortais.
Para o cientista da computação da UC Santa Bárbara William Wang, este pântano caótico é um terreno fértil para exploração. Wang acredita que as técnicas de aprendizado profundo, quando implantado na rede de texto e hiperlink de postagens online e artigos de notícias, pode nos ajudar com o trabalho pesado do pensamento crítico. Este conceito está no cerne de seu projeto de três anos "Dínamo:Modelagem Multicanal Dinâmica de Informações Desinformadas".
"Então a questão é, dado um post, como você seria capaz de entender se isso é especificamente enganoso ou se esta é uma postagem genuína, "Wang disse, "e, dada a estrutura da rede, você pode identificar a disseminação da desinformação e como ela será diferente em comparação com artigos padrão ou não padrão? "
Uma ordem de altura
É uma tarefa difícil, especialmente na área de mídia social, que nivelou o campo de jogo entre legítimos, sites de notícias estabelecidos e sites questionáveis que fazem o seu melhor para parecerem oficiais, ou apelar para as emoções de um usuário antes que ele possa recuar e questionar a fonte de suas informações.
Contudo, graças ao processamento de linguagem natural - a especialidade de Wang - o texto dessas postagens e artigos pode ser usado para revelar informações sobre seus criadores e propagadores, como suas afiliações, ideologias e incentivos para postagem, bem como quem pode ser seu público-alvo. O algoritmo rastreia milhões de artigos de notícias postados por usuários anônimos em plataformas como Twitter e Reddit e examina os títulos dos artigos, conteúdo e links. O objetivo é ter uma noção não apenas das entidades por trás deles, mas também de seus padrões de disseminação pela rede.
"Muitos de nós tomamos os sites como garantidos e casualmente retuímos ou repassamos informações incorretas e é assim que elas são propagadas, cascatear e se espalhar viralmente, "Disse Wang." Algumas das perguntas mais importantes que estamos fazendo são:Quais são os padrões? Quais são os incentivos? "
Descobrir, ele e sua equipe propuseram um mecanismo de aprendizagem que descobre por que certas histórias são republicadas ou retuitadas, além de saber se o conteúdo em si é verdadeiro ou falso. Pelo caminho, Wang disse, eles poderiam descobrir quem está envolvido na disseminação da desinformação e quais padrões podem surgir nesse processo. As imagens também farão parte do conjunto de dados, ele adicionou.
Mais tarde, os pesquisadores planejam integrar outros aspectos de seu trabalho com desinformação, como clickbait, que usa cativante, muitas vezes títulos sensacionais para atrair os leitores a clicar em um link que, na melhor das hipóteses, os leva a um site duvidoso, ou na pior das hipóteses, rouba suas informações.
"Clickbait são principalmente artigos de baixa qualidade que podem, de fato, conter muita desinformação e informações falsas porque precisam ser exagerados, "Disse Wang. Junto com o estudante de doutorado em ciência da computação Jiawei Wu, a equipe desenvolveu um método chamado "co-treinamento reforçado, "que emprega um sistema eficiente de rotular algumas centenas de artigos que são usados para treinar um classificador de aprendizado de máquina para rotular o que ele pensa ser um clickbait em um enorme, conjunto de dados de um milhão de histórias.
"Então, pegamos essas novas instâncias rotuladas e treinamos novamente o classificador, "Disse Wang." Este processo iterativo nos permite coletar mais dados de rótulos ao longo do tempo, " ele adicionou, que refina a precisão da ferramenta.
Usar a inteligência artificial para entender e encontrar padrões na onda de texto que enviamos uns aos outros todos os dias nos daria uma visão de como nós, intencionalmente ou involuntariamente, propagam informações incorretas.
"Essa é realmente a beleza do processamento de linguagem natural e do aprendizado de máquina, "Disse Wang." Temos uma grande quantidade de dados em diferentes formatos, e a pergunta é:como você transforma dados não estruturados em conhecimento estruturado? Esse é um dos objetivos do aprendizado profundo e da ciência de dados. "