• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Olhando sob o capô de detectores de notícias falsas

    Crédito CC0:domínio público

    Novo trabalho de pesquisadores do MIT analisa sob o capô de um sistema automatizado de detecção de notícias falsas, revelando como os modelos de aprendizado de máquina captam diferenças sutis, mas consistentes na linguagem de histórias factuais e falsas. A pesquisa também destaca como os detectores de notícias falsas devem passar por testes mais rigorosos para serem eficazes em aplicações do mundo real.

    Popularizado como um conceito nos Estados Unidos durante a eleição presidencial de 2016, notícias falsas são uma forma de propaganda criada para enganar os leitores, para gerar visualizações em sites ou orientar a opinião pública.

    Quase tão rapidamente quanto o problema se tornou popular, os pesquisadores começaram a desenvolver detectores automatizados de notícias falsas - as chamadas redes neurais, que "aprendem" com dezenas de dados para reconhecer pistas linguísticas indicativas de artigos falsos. Dados novos artigos para avaliar, essas redes podem, com precisão bastante alta, separar o fato da ficção, em configurações controladas.

    Um problema, Contudo, é o problema da "caixa preta" - o que significa que não há como dizer quais padrões linguísticos as redes analisam durante o treinamento. Eles também são treinados e testados nos mesmos tópicos, o que pode limitar seu potencial de generalização para novos tópicos, uma necessidade para analisar notícias na internet.

    Em um artigo apresentado na Conferência e Workshop sobre Sistemas de Processamento de Informação Neural, os pesquisadores lidam com essas duas questões. Eles desenvolveram um modelo de aprendizado profundo que aprende a detectar padrões de linguagem de notícias falsas e reais. Parte de seu trabalho "abre" a caixa preta para encontrar as palavras e frases que o modelo captura para fazer suas previsões.

    Adicionalmente, eles testaram seu modelo em um tópico novo que não foi visto no treinamento. Esta abordagem classifica artigos individuais com base apenas em padrões de linguagem, que representa mais de perto um aplicativo do mundo real para leitores de notícias. Os detectores de notícias falsas tradicionais classificam os artigos com base no texto combinado com as informações da fonte, como uma página ou site da Wikipedia.

    "No nosso caso, queríamos entender qual era o processo de decisão do classificador baseado apenas na linguagem, pois isso pode fornecer informações sobre o que é a linguagem das notícias falsas, "diz o co-autor Xavier Boix, um pós-doutorado no laboratório de Eugene McDermott Professor Tomaso Poggio no Center for Brains, Minds, e Máquinas (CBMM) no Departamento de Cérebro e Ciências Cognitivas (BCS).

    "Um problema importante com o aprendizado de máquina e a inteligência artificial é que você recebe uma resposta e não sabe por que essa resposta, "diz a estudante de graduação e primeira autora Nicole O'Brien '17." Mostrar esse funcionamento interno é o primeiro passo em direção à compreensão da confiabilidade dos detectores de notícias falsas de aprendizagem profunda. "

    O modelo identifica conjuntos de palavras que tendem a aparecer com mais frequência em notícias reais ou falsas, algumas talvez óbvias, outros muito menos. As evidências, os pesquisadores dizem, aponta para diferenças sutis, mas consistentes em notícias falsas - o que favorece exageros e superlativos - e notícias reais, o que se inclina mais para escolhas de palavras conservadoras.

    "Notícias falsas são uma ameaça para a democracia, "Boix diz." Em nosso laboratório, nosso objetivo não é apenas impulsionar a ciência, mas também para usar tecnologias para ajudar a sociedade. ... Seria poderoso ter ferramentas para usuários ou empresas que pudessem fornecer uma avaliação sobre se as notícias são falsas ou não. "

    Os outros co-autores do artigo são Sophia Latessa, estudante de graduação em CBMM; e Georgios Evangelopoulos, um pesquisador no CBMM, o Instituto McGovern de Pesquisa do Cérebro, e o Laboratório de Aprendizagem Computacional e Estatística.

    Limitando viés

    O modelo dos pesquisadores é uma rede neural convolucional que treina em um conjunto de dados de notícias falsas e verdadeiras. Para treinamento e teste, os pesquisadores usaram um popular conjunto de dados de pesquisa de notícias falsas, chamado Kaggle, que contém cerca de 12, 000 artigos de amostra de notícias falsas de 244 sites diferentes. Eles também compilaram um conjunto de dados de amostras de notícias reais, usando mais de 2, 000 do New York Times e mais de 9, 000 do The Guardian.

    Em treinamento, o modelo captura a linguagem de um artigo como "incorporação de palavras, "onde as palavras são representadas como vetores - basicamente, matrizes de números - com palavras de significados semânticos semelhantes agrupados mais próximos. Ao fazer isso, ele captura trigêmeos de palavras como padrões que fornecem algum contexto, como, dizer, um comentário negativo sobre um partido político. Dado um novo artigo, o modelo verifica o texto em busca de padrões semelhantes e os envia por uma série de camadas. Uma camada de saída final determina a probabilidade de cada padrão:real ou falso.

    Os pesquisadores primeiro treinaram e testaram o modelo da maneira tradicional, usando os mesmos tópicos. Mas eles pensaram que isso poderia criar um viés inerente ao modelo, uma vez que certos tópicos são mais frequentemente assunto de notícias falsas ou reais. Por exemplo, notícias falsas geralmente incluem mais as palavras "Trump" e "Clinton".

    "Mas não era isso que queríamos, "O'Brien diz." Isso apenas mostra tópicos que têm um forte peso em notícias falsas e reais. ... Queríamos encontrar os padrões reais na linguagem que os indicam. "

    Próximo, os pesquisadores treinaram o modelo em todos os tópicos sem qualquer menção à palavra "Trump, "e testou o modelo apenas em amostras que foram separadas dos dados de treinamento e que continham a palavra" Trump ". Enquanto a abordagem tradicional atingiu 93 por cento de precisão, a segunda abordagem atingiu 87% de precisão. Esta lacuna de precisão, os pesquisadores dizem, destaca a importância de usar tópicos do processo de treinamento, para garantir que o modelo possa generalizar o que aprendeu para novos tópicos.

    Mais pesquisas necessárias

    Para abrir a caixa preta, os pesquisadores então refizeram seus passos. Cada vez que o modelo faz uma previsão sobre um trio de palavras, uma certa parte do modelo é ativada, dependendo se o trigêmeo é mais provável de uma notícia real ou falsa. Os pesquisadores desenvolveram um método para rastrear cada previsão de volta à sua parte designada e, em seguida, encontrar as palavras exatas que a ativaram.

    Mais pesquisas são necessárias para determinar o quão útil esta informação é para os leitores, Boix diz. No futuro, o modelo poderia ser potencialmente combinado com, dizer, verificadores de fatos automatizados e outras ferramentas para dar aos leitores uma vantagem no combate à desinformação. Depois de algum refino, o modelo também pode ser a base de uma extensão de navegador ou aplicativo que alerta os leitores sobre uma potencial linguagem de notícias falsas.

    "Se eu apenas te der um artigo, e destacar esses padrões no artigo enquanto você lê, você pode avaliar se o artigo é mais ou menos falso, "ele diz." Seria como um aviso dizer, 'Ei, talvez haja algo estranho aqui. '"


    © Ciência https://pt.scienceaq.com