Crédito CC0:domínio público
Os pesquisadores da Cornell desenvolveram um sistema automatizado que usa aprendizado de máquina, análise de dados e feedback humano para verificar automaticamente as afirmações estatísticas sobre o novo coronavírus.
"CoronaCheck, "com base na pesquisa em andamento de Immanuel Trummer, professor assistente de ciência da computação, lançado internacionalmente em março e já foi usado mais de 9, 600 vezes. O banco de dados - agora disponível em inglês, Francês e italiano - verifica as reclamações sobre a disseminação do COVID-19 com base em fontes confiáveis, como a Organização Mundial da Saúde e os Centros para Controle e Prevenção de Doenças.
"Há muita desinformação sobre o coronavírus na web - é impressionante, na realidade, "Trummer disse." Algumas dessas alegações de desinformação são inofensivas, mas outras - coisas como 'comer prata cura o coronavírus' - podem ser perigosas. "
O sistema CoronaCheck é uma colaboração entre a equipe de Trummer, incluindo estudantes de doutorado Georgios Karagiannis e Saehan Jo, e a equipe de Paolo Papotti na Eurecom, uma escola de engenharia em Biot, França.
Devido ao grande volume de informações incorretas na Internet - e à taxa na qual mais informações incorretas são produzidas e disseminadas - é impossível para os humanos resolverem o problema realizando verificações manuais de fatos sozinhos. Mesmo abordagens automatizadas comuns, que geralmente tentam mapear novas alegações para verificações de fatos existentes, não pode ser conduzido de forma realista em uma escala grande o suficiente para lidar com o escopo da desinformação, Disse Trummer.
"Tentamos automatizar todo o processo, desde os dados brutos até o texto que queremos verificar, "Trummer disse.
CoronaCheck adapta "Scrutinizer, "um sistema Trummer desenvolvido com a Eurecom para a Agência Internacional de Energia em Paris, uma organização não governamental, para apoiar verificadores de fatos humanos na tradução de resumos de texto em equações que o computador possa entender e resolver. Para fazer isso, O Scrutinizer emprega aprendizado de máquina e processamento de linguagem natural, um ramo da inteligência artificial que visa decifrar a linguagem humana, bem como grandes conjuntos de dados que ajudam o sistema a descobrir como abordar cada nova afirmação, e feedback de usuários humanos.
"Os computadores têm dificuldade em entender a linguagem natural, "disse ele." Não podemos pedir diretamente ao computador para verificar se alguma afirmação em uma frase está correta ou não. Portanto, temos essencialmente que traduzir a declaração de nossa linguagem para uma linguagem de consulta que o computador entenda. "
Por exemplo, se alguém digitar isso, o número de casos de coronavírus é maior na França do que na Itália, o sistema usa uma espécie de processo de eliminação para restringir as possíveis equações para representar aquele texto. Ele se baseia em seus conjuntos de dados para criar uma expressão matemática que possa comparar a afirmação aos fatos.
Então, com base na experiência, o sistema determina as melhores fontes para verificar a reclamação, com base em dados públicos confiáveis compilados diariamente pela Johns Hopkins University. O modelo de aprendizado de máquina do sistema também pode melhorar com o tempo, aprender a reconhecer novos tipos de sinistro com base no feedback do usuário.
"Há uma enorme quantidade de desinformação por aí e o conjunto de alegações que as pessoas verificam é bastante diverso, "Trummer disse." Para qualquer reclamação, há um grande número de expressões de consulta possíveis, e nosso objetivo é encontrar o caminho certo. "
A interface do banco de dados baseia-se no trabalho relacionado de Trummer, incluindo AggChecker, a primeira ferramenta a verificar automaticamente resumos de texto de conjuntos de dados consultando um banco de dados relacional. AggChecker foi apresentado na conferência anual do Grupo de Interesse Especial sobre Gerenciamento de Dados da Association for Computing Machinery em 2019.
Sua equipe também desenvolveu uma "Base Anti-Conhecimento" de erros factuais comuns da Wikipedia em colaboração com o Google NYC. A pesquisa por trás do CoronaCheck foi parcialmente financiada pelo Google Faculty Research Award.