Uma rede neural pode ler artigos científicos e renderizar um resumo em inglês simples

Uma equipe de cientistas do MIT e de outros lugares desenvolveu uma rede neural, uma forma de inteligência artificial (IA), que pode ler artigos científicos e renderizar um resumo em inglês simples em uma ou duas frases. Crédito:Chelsea Turner

O trabalho de um escritor de ciência, incluindo este, inclui a leitura de artigos de periódicos com terminologia técnica especializada, e descobrir como explicar seus conteúdos em uma linguagem que leitores sem formação científica possam entender.

Agora, uma equipe de cientistas do MIT e de outros lugares desenvolveu uma rede neural, uma forma de inteligência artificial (IA), que pode fazer quase a mesma coisa, pelo menos até certo ponto:pode ler artigos científicos e apresentar um resumo em inglês simples em uma ou duas frases.

Mesmo nesta forma limitada, tal rede neural pode ser útil para ajudar os editores, escritoras, e os cientistas examinam um grande número de artigos para ter uma ideia preliminar do que eles tratam. Mas a abordagem que a equipe desenvolveu também pode encontrar aplicativos em uma variedade de outras áreas além do processamento de linguagem, incluindo tradução automática e reconhecimento de voz.

O trabalho é descrito no jornal Transações da Association for Computational Linguistics , em um artigo de Rumen Dangovski e Li Jing, ambos os alunos de pós-graduação do MIT; Marin Soljačić, professor de física no MIT; Preslav Nakov, um cientista sênior do Qatar Computing Research Institute, HBKU; e Mićo Tatalović, um ex-bolsista do Knight Science Journalism no MIT e um ex-editor da New Scientist revista.

Da IA para a física à linguagem natural

O trabalho surgiu como resultado de um projeto não relacionado, que envolveu o desenvolvimento de novas abordagens de inteligência artificial baseadas em redes neurais, visando resolver certos problemas espinhosos da física. Contudo, os pesquisadores logo perceberam que a mesma abordagem poderia ser usada para resolver outros problemas computacionais difíceis, incluindo processamento de linguagem natural, de maneiras que podem superar os sistemas de rede neural existentes.

"Temos feito vários tipos de trabalho em IA há alguns anos, "Soljačić diz." Usamos IA para ajudar em nossa pesquisa, basicamente para fazer física melhor. E à medida que ficamos mais familiarizados com a IA, notaríamos que, de vez em quando, há uma oportunidade de acrescentar algo ao campo da IA por causa de algo que conhecemos da física - uma certa construção matemática ou uma certa lei da física. Percebemos que hey, se usarmos isso, pode realmente ajudar com este ou aquele algoritmo de IA específico. "

Essa abordagem pode ser útil em uma variedade de tipos específicos de tarefas, ele diz, mas nem todos. "Não podemos dizer que isso é útil para toda a IA, mas há casos em que podemos usar uma visão da física para melhorar um determinado algoritmo de IA. "

As redes neurais em geral são uma tentativa de imitar a maneira como os humanos aprendem certas coisas novas:o computador examina muitos exemplos diferentes e "aprende" quais são os principais padrões subjacentes. Esses sistemas são amplamente utilizados para reconhecimento de padrões, como aprender a identificar objetos retratados em fotos.

Mas as redes neurais em geral têm dificuldade em correlacionar informações de uma longa sequência de dados, tal como é exigido na interpretação de um artigo de pesquisa. Vários truques foram usados para melhorar essa capacidade, incluindo técnicas conhecidas como memória de curto prazo longa (LSTM) e unidades recorrentes bloqueadas (GRU), mas ainda estão muito aquém do que é necessário para o processamento de linguagem natural real, dizem os pesquisadores.

A equipe surgiu com um sistema alternativo, que em vez de se basear na multiplicação de matrizes, como a maioria das redes neurais convencionais são, é baseado em vetores girando em um espaço multidimensional. O conceito-chave é algo que eles chamam de unidade rotacional de memória (RUM).

Essencialmente, o sistema representa cada palavra no texto por um vetor no espaço multidimensional - uma linha de certo comprimento apontando em uma direção específica. Cada palavra subsequente balança este vetor em alguma direção, representado em um espaço teórico que pode, em última análise, ter milhares de dimensões. No final do processo, o vetor final ou conjunto de vetores é traduzido de volta em sua sequência de palavras correspondente.

"RUM ajuda as redes neurais a fazer duas coisas muito bem, "Nakov diz." Isso os ajuda a se lembrar melhor, e permite que eles lembrem de informações com mais precisão. "

Depois de desenvolver o sistema RUM para ajudar com certos problemas físicos difíceis, como o comportamento da luz em materiais complexos de engenharia, "percebemos que um dos lugares onde pensamos que essa abordagem poderia ser útil seria o processamento de linguagem natural, "diz Soljačić, relembrando uma conversa com Tatalović, que observou que tal ferramenta seria útil para seu trabalho como editor tentando decidir sobre quais artigos escrever. Na época, Tatalović explorava IA no jornalismo científico como seu projeto de bolsa Knight.

"E então tentamos algumas tarefas de processamento de linguagem natural nele, "Soljačić diz." Um que tentamos foi resumir artigos, e isso parece estar funcionando muito bem. "

A prova está na leitura

Como um exemplo, eles alimentaram o mesmo papel de pesquisa por meio de uma rede neural convencional baseada em LSTM e por meio de seu sistema baseado em RUM. Os resumos resultantes eram dramaticamente diferentes.

O sistema LSTM produziu este resumo altamente repetitivo e bastante técnico:"Baylisascariasis, "mata ratos, colocou em perigo o rato-da-floresta e causou doenças como cegueira ou consequências graves. Esta infecção, denominado "baylisascaríase, "mata ratos, colocou em perigo o rato-da-floresta e causou doenças como cegueira ou consequências graves. Esta infecção, denominado "baylisascaríase, "mata ratos, colocou em perigo o rato de madeira allegheny.

Com base no mesmo papel, o sistema RUM produziu um resumo muito mais legível, e um que não incluía a repetição desnecessária de frases:Os guaxinins urbanos podem infectar as pessoas mais do que se pensava anteriormente. 7 por cento dos indivíduos pesquisados testaram positivo para anticorpos contra vermes do guaxinim. Mais de 90% dos guaxinins em Santa Bárbara hospedam esse parasita.

Já, o sistema baseado em RUM foi expandido para que possa "ler" documentos de pesquisa inteiros, não apenas os resumos, para produzir um resumo de seu conteúdo. Os pesquisadores até tentaram usar o sistema em seu próprio artigo de pesquisa, descrevendo essas descobertas - o artigo que esta notícia está tentando resumir.

Aqui está o resumo da nova rede neural:Os pesquisadores desenvolveram um novo processo de representação na unidade rotacional de RUM, uma memória recorrente que pode ser usada para resolver um amplo espectro da revolução neural no processamento de linguagem natural.

Pode não ser uma prosa elegante, mas pelo menos atinge os pontos-chave da informação.

Çağlar Gülçehre, um cientista pesquisador da empresa britânica Deepmind Technologies, que não estava envolvido neste trabalho, diz que esta pesquisa aborda um problema importante em redes neurais, tendo a ver com relacionar pedaços de informação que estão amplamente separados no tempo ou no espaço. "Este problema tem sido uma questão fundamental na IA devido à necessidade de raciocinar ao longo de longos atrasos em tarefas de previsão de sequência, "ele diz." Embora eu não ache que este artigo resolva completamente este problema, mostra resultados promissores nas tarefas de dependência de longo prazo, como responder a perguntas, resumo de texto, e lembrança associativa. "

Gülçehre acrescenta, "Uma vez que os experimentos realizados e o modelo proposto neste artigo são liberados como código aberto no Github, como resultado, muitos pesquisadores estarão interessados em experimentá-lo em suas próprias tarefas. ... Para ser mais específico, potencialmente, a abordagem proposta neste artigo pode ter um impacto muito alto nos campos de processamento de linguagem natural e aprendizagem por reforço, onde as dependências de longo prazo são muito cruciais. "

Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.

Os pesquisadores usam a física dos fluxos de ar para localizar vazamentos gasosos mais rapidamente em cenários complexos

O Project Sidewalk ajuda os usuários a mapear a acessibilidade em Seattle e em outras cidades

Eletrônicos