Crédito CC0:domínio público
Humanos e máquinas trabalharam juntos para ajudar a treinar um modelo de inteligência artificial - IA - que superou outros detectores clickbait, de acordo com pesquisadores da Penn State e da Arizona State University. Além disso, a nova solução baseada em IA também foi capaz de diferenciar as manchetes clickbait geradas por máquinas - ou bots - e as escritas por pessoas, eles disseram.
Em um estudo, os pesquisadores pediram às pessoas que escrevessem seu próprio clickbait - um interessante, mas enganoso, manchete projetada para atrair leitores a clicar em links para outras histórias online. Os pesquisadores também programaram máquinas para gerar clickbaits artificiais. Então, as manchetes feitas por pessoas e máquinas foram usadas como dados para treinar um algoritmo de detecção de clickbait.
A capacidade do algoritmo resultante para prever manchetes clickbait foi cerca de 14,5 por cento melhor do que outros sistemas, de acordo com os pesquisadores, que divulgou suas descobertas hoje (28 de agosto) na Conferência Internacional IEEE / ACM 2019 sobre Avanços na Análise de Redes Sociais (ASONAM) em Vancouver, Canadá.
Além de seu uso na detecção de clickbait, a abordagem da equipe pode ajudar a melhorar o desempenho do aprendizado de máquina em geral, disse Dongwon Lee, o investigador principal do projeto e professor associado da Faculdade de Ciências e Tecnologia da Informação. Lee também é afiliado do Penn State's Institute for CyberScience (ICS), que fornece aos pesquisadores da Penn State acesso a recursos de supercomputação.
"Este resultado é bastante interessante, pois demonstramos com sucesso que os dados de treinamento clickbait gerados por máquina podem ser retornados ao pipeline de treinamento para treinar uma ampla variedade de modelos de aprendizado de máquina para melhorar o desempenho, "disse Lee." Esta é a etapa para resolver o gargalo fundamental do aprendizado de máquina supervisionado que requer uma grande quantidade de dados de treinamento de alta qualidade. "
De acordo com Thai Le, um aluno de doutorado na Faculdade de Ciências e Tecnologia da Informação, Estado de Penn, um dos desafios enfrentados pelo desenvolvimento da detecção de clickbait é a falta de dados rotulados. Assim como as pessoas precisam de professores e guias de estudo para ajudá-las a aprender, Os modelos de IA precisam de dados rotulados para ajudá-los a aprender a fazer as conexões e associações corretas.
"Uma das coisas que percebemos quando iniciamos este projeto é que não temos muitos pontos de dados positivos, "disse Le." A fim de identificar clickbait, precisamos que os humanos rotulem esses dados de treinamento. É necessário aumentar a quantidade de pontos de dados positivos para que, mais tarde, podemos treinar modelos melhores. "
Encontrar clickbait na Internet pode ser fácil, as muitas variações de clickbait adicionam outra camada de dificuldade, de acordo com S. Shyam Sundar, James P. Jimirro Professor de efeitos de mídia e codiretor do Laboratório de pesquisa de efeitos de mídia do Donald P. Bellisario College of Communications, e uma afiliada ICS.
"Existem clickbaits que são listas, ou listas; existem clickbaits que são formulados como perguntas; há aqueles que começam com quem-o-que-onde-quando; e todos os tipos de outras variações de clickbait que identificamos em nossa pesquisa ao longo dos anos, "disse Sundar." Então, Encontrar amostras suficientes de todos esses tipos de clickbait é um desafio. Mesmo que todos nós lamentemos sobre o número de clickbaits ao redor, quando você começa a obtê-los e rotulá-los, não há muitos desses conjuntos de dados. "
De acordo com os pesquisadores, o estudo revelou diferenças em como as pessoas e as máquinas abordavam a criação de manchetes. Comparado ao clickbait gerado por máquina, manchetes geradas por pessoas tendiam a ter mais determinantes - palavras como "qual" e "aquele" - em suas manchetes.
O treinamento também pareceu sugerir diferenças na criação de clickbait. Por exemplo, escritores treinados, como jornalistas, tendeu a usar palavras mais longas e mais pronomes do que os outros participantes. Os jornalistas também costumavam usar números para começar suas manchetes.
Os pesquisadores planejam usar essas descobertas para orientar suas investigações em um sistema de detecção de notícias falsas mais robusto, entre outras aplicações, de acordo com Sundar.
"Para nós, clickbait é apenas um dos muitos elementos que compõem as notícias falsas, mas esta pesquisa é uma etapa preparatória útil para garantir que temos um bom sistema de detecção de clickbait configurado, "disse Sundar.
Para encontrar escritores indutores de cliques humanos para o estudo, os pesquisadores recrutaram estudantes e trabalhadores de jornalismo da Amazon Turk, um site de crowdsource online. Eles recrutaram 125 alunos e 85 trabalhadores do local. Os participantes primeiro leram uma definição de clickbait e, em seguida, foram solicitados a ler um artigo curto - cerca de 500 palavras. Os participantes foram então solicitados a escrever um título clickbait para cada artigo.
Os títulos clickbait gerados por máquina foram desenvolvidos usando um modelo de aprendizado de máquina chamado de Autoencoders Variacionais - ou VAE - modelo gerador, que se baseia em probabilidades de encontrar padrões nos dados.
Os pesquisadores testaram seu algoritmo em relação aos sistemas de alto desempenho do Clickbait Challenge 2017, uma competição online de detecção de clickbait.