Uso de aprendizado de máquina para verificação de boatos multilíngue e multiplataforma
p Um vídeo do voo 1549 da US Airways foi emprestado por notícias do voo 370 da Malaysia Airlines. Crédito:Wen, Su e Yu.
p Pesquisadores da UC Davis desenvolveram recentemente uma nova ferramenta baseada em aprendizado de máquina para verificar rumores de multimídia online. Seu papel, pré-publicado no arXiv, propõe recursos multilíngues e de plataforma cruzada para verificação de boatos, que potencializam a semelhança semântica entre rumores e informações em outros sites. Seu método pode combinar informações de vários idiomas para obter uma imagem completa das notícias online. p Um número crescente de pessoas em todo o mundo agora está usando dispositivos para ler as notícias e aprender sobre o que está acontecendo no mundo. Contudo, as plataformas de mídia social não são moderadas, resultando na proliferação de notícias falsas, que geralmente é acompanhado por conteúdo multimídia fabricado ou descontextualizado. Rumores falsos podem se espalhar muito rapidamente online, causando estragos e confusão entre os leitores, portanto, o desenvolvimento de ferramentas para verificar a autenticidade das informações online é de grande importância.
p "Nossa pesquisa é inspirada na crescente popularidade de notícias falsas anexadas por conteúdo multimídia em redes sociais, "Weiming Wen, um dos pesquisadores graduados que realizou o estudo, disse Tech Xplore. "É principalmente sobre como usar técnicas de PNL para verificar rumores com conteúdo multimídia. A ideia básica é resolver o problema por meio do aprendizado de máquina - extraindo recursos específicos desse tipo de rumor e construindo um modelo para classificar os rumores como falsos ou reais."
p A pesquisa de verificação de rumores anteriores usou conteúdo multimídia como recursos de entrada, aproveitando recursos forenses de imagens ou vídeos para determinar se eles foram adulterados. Embora essas imagens apresentem resultados aprimorados, a maioria desses estudos não poderia usar efetivamente o conteúdo multimídia para verificar rumores no Twitter de forma consistente.
p Uma possível razão para isso é que, frequentemente, o conteúdo multimídia anexado a notícias falsas é meramente emprestado de eventos autênticos e é um pouco semanticamente alinhado com o texto que o acompanha. Isso significa que a própria imagem é real, mas é colocado em uma história totalmente diferente para tornar o boato falso mais verossímil.
p O fluxo de informações do nosso pipeline proposto. TFG representa os recursos de plataforma cruzada multilíngue para tweets que aproveitam as informações do Google, enquanto o TFB é semelhante, mas aproveita as informações do Baidu. BFG significa recursos de plataforma cruzada em vários idiomas para o Baidu alavancar as informações do Google. Crédito:Wen, Su e Yu.
p Os pesquisadores da UC Davis propuseram uma forma alternativa de verificar rumores que potencializam o conteúdo multimídia, encontrando informações associadas a ele em outras plataformas de notícias.
p A maioria dos conjuntos de dados de verificação de rumores existentes são monolíngues, por exemplo, incluindo apenas conteúdo multimídia apresentado com texto em inglês ou chinês. Os pesquisadores criaram um novo cross-lingual, conjunto de dados de verificação de rumor de plataforma cruzada (CCMR), compreendendo três sub-conjuntos de dados:CCMR Twitter, CCMR Google e CCMR Baidu.
p "Quando dizemos rumores de multimídia, queremos dizer tweets ou outro conteúdo de mídia social que não são verificados e têm imagens ou vídeos junto com o texto, "Zhou Yu, professor assistente na UC Davis, quem realizou o estudo, disse Tech Xplore. “Texto e imagem são considerados dois canais de informação diferentes. Estamos aproveitando a informação da visão de uma forma inovadora, usando-o como um pivô para vincular notícias de diferentes plataformas e em diferentes idiomas. "
p Os recursos desenvolvidos pelos pesquisadores incorporam o boato e os títulos associados em diferentes páginas da web em vetores de 300 dimensões com uma incorporação de frase multilíngue pré-treinada. Eles treinaram seu algoritmo de incorporação de frases multilíngues em 453, 000 pares de notícias paralelas em inglês e chinês, bem como microblogs no conjunto de dados UM-Corpus. Este algoritmo pode combinar notícias de vários idiomas, obter uma verificação mais eficaz do boato.
p "Dado um boato associado a uma imagem, primeiro pesquisamos a imagem por meio do Google Image para obter várias postagens relacionadas, "Wen explicou." Em seguida, extraímos características desse boato calculando a semelhança e a concordância entre o boato e as postagens pesquisadas. Finalmente, usamos nosso modelo pré-treinado para verificar esse boato usando seus recursos. "
p Exemplo de rumores paralelos no evento Pig Fish. Crédito:Wen, Su e Yu. Crédito:Wen, Su e Yu.
p Quando testado, Os métodos de aprendizado de máquina que usaram os recursos multilíngues e de plataforma cruzada propostos pelos pesquisadores alcançaram resultados de verificação de rumor de última geração. Esses recursos também foram considerados compactos e generalizáveis entre os idiomas.
p "Acho que a parte mais significativa de nosso estudo é que desenvolvemos uma estrutura de verificação de boatos que funciona especificamente para boatos de multimídia, o que é extremamente comum, mas não foi estudado completamente, "Wen disse." Com esta estrutura, podemos verificar com eficiência rumores de multimídia de plataformas como Facebook e Twitter. "
p Este estudo pode ser um marco importante no caminho para o desenvolvimento de maneiras eficazes de validar rumores online que são acompanhados por conteúdo multimídia. Além disso, o conjunto de dados inglês-chinês reunido pelos pesquisadores poderia ser usado em novas pesquisas, explorando métodos para verificação de boatos multilíngues.
p "No futuro, planejamos gerar razões para nossos resultados de verificação sobre rumores de multimídia, "Wen disse." Além de classificar um boato como falso, também queremos gerar automaticamente um motivo, como 'esta postagem é falsa porque pega emprestada uma imagem de outro evento para provar sua afirmação, '"Wen disse. p © 2018 Tech Xplore