Um exemplo ilustrativo de sumarização comparativa. Quadrados são artigos de notícias, linhas denotam diferentes veículos de notícias, e o eixo x denota o tempo. Os artigos sombreados são escolhidos para representar notícias relacionadas à IA durante fevereiro e março de 2018, respectivamente. O objetivo é resumir os tópicos de cada mês e também destacar as diferenças entre os dois meses. Crédito:Bista et al.
Pesquisadores da Australian National University (ANU) realizaram recentemente um estudo explorando a sumarização extrativa em cenários comparativos. O termo 'resumo extrativo' define a tarefa de selecionar alguns artigos altamente representativos de uma grande coleção de documentos.
Em seu jornal, pré-publicado no arXiv e programado para ser apresentado na 33ª Conferência AAAI sobre inteligência artificial, os pesquisadores consideraram a sumarização comparativa, que envolve a seleção de documentos de diferentes coleções de documentos. Esses documentos selecionados devem ser representativos de cada grupo, ao mesmo tempo, destacando as diferenças entre os grupos.
O projeto segue um tema em andamento no Laboratório de Mídia Computacional da ANU, que se concentra na compreensão automatizada de grandes quantidades de fluxos de texto e imagens na web social. Um objetivo geral do estudo é identificar técnicas que podem ajudar as pessoas a lidar com a sobrecarga de informações.
"Há muito conteúdo novo para qualquer um ler:notícias, feeds de mídia social, ou até mesmo o fluxo de artigos de pesquisa do arXiv, "Lexing Xie, um dos pesquisadores que realizou o estudo, disse TechXplore. "Podemos pedir aos computadores que nos ajudem a escolher qual ler, e ainda receber informações cruciais? "
Xie e seus colegas têm investigado maneiras de resumir as centenas de milhares de artigos de notícias, postagens e discussões disponíveis online. O objetivo é apresentar aos usuários alguns itens (por exemplo, 3-4) que melhor respondem à pergunta "o que há de novo?" ao longo de um determinado período (por exemplo, hoje, esta semana, etc.) ou em relação a um tópico específico (por exemplo, mudança climática, eleições, etc.).
"A sumarização de textos tem sido um campo de pesquisa ativo por quase 20 anos, mas o foco principal tem sido resumir uma coleção de forma extrativa (ou seja, selecionar itens existentes para compor um resumo), ou abstratamente (ou seja, compondo novas frases como resumo, em vez de usar os existentes), "Xie explicou." Este trabalho foca na comparação extrativa de grupos de documentos, ou seja, selecionar alguns itens de um grupo que é mais distinto de outros grupos. Para o melhor de nosso conhecimento, nosso trabalho é o primeiro a realizar e validar resumos comparativos em escala. "
Em seu estudo, os pesquisadores abordaram a sumarização de documentos comparativos como uma tarefa de classificação. A classificação é uma tarefa comum de aprendizado de máquina, em que um algoritmo faz suposições fundamentadas sobre a qual categoria ou grupos os itens de dados específicos pertencem.
"No caso de resumos comparativos, se escolhemos bons artigos de resumo, deve ser difícil, se não impossível, projetar um classificador que possa distinguir entre os artigos de resumo escolhidos e os grupos a que pertencem; embora deva ser fácil projetar um classificador que possa distinguir entre os artigos de resumo escolhidos e outros grupos, "Alexander Mathews, outro pesquisador envolvido no estudo, disse TechXplore.
A perspectiva de classificação adotada pelos pesquisadores implica uma visão alternativa, mas complementar, da sumarização comparativa como três objetivos concorrentes. Primeiro, os artigos de resumo selecionados devem ser representativos dos grupos a que pertencem, cobrindo todos os aspectos importantes da coleção de documentos.
Segundo, cada artigo de resumo escolhido deve ser relativamente diferente dos outros, para evitar repetições desnecessárias. Finalmente, os artigos de resumo selecionados devem ser representativos do grupo a que pertencem, pois este é um fator chave para uma sumarização comparativa eficaz.
"Nossa formulação específica dos três objetivos se baseia em uma medida matemática flexível chamada de Discrepância Média Máxima (MMD), "Mathews explicou." Esta medida, junto com a aplicação de uma ferramenta matemática chamada 'o truque do kernel' nos permite lançar nossos três objetivos em uma forma matemática compacta que podemos otimizar de forma eficiente, mesmo em grandes conjuntos de dados. Além disso, esta forma permite técnicas de otimização baseadas em gradientes e discretas, permitindo a escolha dos artigos a serem ajustados para atender aos nossos objetivos. "
A perspectiva de classificação assumida por Mathews e seus colegas permitiu-lhes avaliar seu método como uma tarefa de classificação, tanto automaticamente quanto por meio de crowdsourcing. Sua abordagem superou as abordagens discretas e de linha de base em 15 de 24 configurações de avaliação automática. Em avaliações de crowdsourcing, resumos selecionados usando sua estratégia de otimização baseada em gradiente simples geraram classificação 7% mais precisa de trabalhadores humanos do que métodos de otimização discretos.
"Estamos felizes em ver que usando apenas 4 artigos de resumo por semana, a precisão da classificação automática (de cada artigo de notícias no mês / semana de onde veio) está no mesmo nível que aquele que 'lê' todos os artigos, "Minjeong Shin, um dos pesquisadores que realizou o estudo, disse TechXplore. "Isso demonstra que novas informações cruciais estão contidas nos poucos artigos do 'protótipo'."
Os pesquisadores avaliaram seu método em comparação com outras abordagens em uma coleção recém-curada de tópicos de notícias controversas abrangendo mais de 13 meses. Quando aplicado ao resumo comparativo de fluxos de conteúdo em andamento, o sistema deles respondeu com sucesso a perguntas como 'o que há de novo no tópico da mudança climática este mês?', destacando as diferenças entre dois períodos de tempo distintos.
"Nossa metodologia também se aplica a comparações de coleções além de notícias ao longo do tempo, "Shin disse." Por exemplo, pode-se perguntar:qual é a diferença entre a cobertura da BBC e da CNN na cúpula do G20, ou como a cobertura das mudanças climáticas difere entre a mídia do Reino Unido e da Austrália? "
No futuro, esta nova abordagem para resumos comparativos pode ajudar os usuários a navegar pelas grandes quantidades de informações disponíveis online; fornecendo comparações de artigos publicados por diferentes fontes ou autores, bem como de postagens sobre tópicos relacionados ou expressando pontos de vista distintos. Os pesquisadores agora estão trabalhando para expandir suas pesquisas, levando essas comparações para o próximo nível.
"Estamos investigando maneiras de resumir não apenas o texto, mas também imagens e texto em conjunto, "Umanga Bista, um dos pesquisadores que realizou o estudo, disse TechXplore. "Também gostaríamos de levar em consideração as relações conhecidas de entidades mencionadas no texto (por exemplo, Delhi é a capital da Índia), em vez de tratar cada palavra como uma entidade independente. Em última análise, gostaríamos de ter um sistema que recomendasse o que há de novo, O que está diferente, e o que vale a pena ler. "
© 2018 Science X Network