• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Uma nova abordagem para parafrasear sem supervisão sem tradução

    Arquitetura do codificador proposta pelos pesquisadores. Crédito:Roy &Grangier.

    Nos últimos anos, pesquisadores têm tentado desenvolver métodos para parafrasear automaticamente, que envolve essencialmente a abstração automatizada do conteúdo semântico do texto. Até aqui, abordagens que dependem de técnicas de tradução automática (TM) provaram ser particularmente populares devido à falta de conjuntos de dados rotulados disponíveis de pares parafraseados.

    Teoricamente, técnicas de tradução podem parecer soluções eficazes para parafraseia automática, à medida que abstraem o conteúdo semântico de sua realização linguística. Por exemplo, atribuir a mesma frase a diferentes tradutores pode resultar em diferentes traduções e um rico conjunto de interpretações, o que pode ser útil para parafrasear tarefas.

    Embora muitos pesquisadores tenham desenvolvido métodos baseados em tradução para parafrasear automatizada, humanos não precisam necessariamente ser bilíngues para parafrasear frases. Com base nesta observação, dois pesquisadores do Google Research propuseram recentemente uma nova técnica de paráfrase que não depende de métodos de tradução automática. Em seu jornal, pré-publicado no arXiv, eles compararam sua abordagem monolíngue a outras técnicas para parafrasear:uma tradução supervisionada e uma abordagem de tradução não supervisionada.

    "Este trabalho se propõe a aprender modelos de parafraseio apenas a partir de um corpus monolíngue não rotulado, "Aurko Roy e David Grangier, os dois pesquisadores que realizaram o estudo, escreveu em seu jornal. "Para esse fim, propomos uma variante residual do auto-codificador variacional quantizado por vetor. "

    O modelo apresentado pelos pesquisadores é baseado em auto-codificadores quantizados por vetores (VQ-VAE) que podem parafrasear frases em um ambiente puramente monolíngue. Ele também tem uma característica única (ou seja, conexões residuais paralelas ao gargalo quantizado), o que permite um melhor controle sobre a entropia do decodificador e facilita a otimização.

    "Comparado com codificadores automáticos contínuos, nosso método permite a geração de diversos, mas frases semanticamente fechadas de uma frase de entrada, "os pesquisadores explicaram em seu artigo.

    Em seu estudo, Roy e Grangier compararam o desempenho de seu modelo com o de outras abordagens baseadas em MT na identificação de paráfrases, geração e aumento de treinamento. Eles o compararam especificamente com um método de tradução supervisionado treinado em dados bilíngues paralelos e um método de tradução não supervisionado treinado em texto não paralelo em duas línguas diferentes. O modelo deles, por outro lado, requer apenas dados não rotulados em um único idioma, aquele em que está parafraseando frases.

    Os pesquisadores descobriram que sua abordagem monolíngue superou as técnicas de tradução não supervisionadas em todas as tarefas. Comparações entre seu modelo e métodos de tradução supervisionada, por outro lado, produziu resultados mistos:a abordagem monolíngue teve melhor desempenho em tarefas de identificação e aumento, enquanto o método de tradução supervisionada foi superior para a geração de paráfrases.

    "Geral, mostramos que os modelos monolíngues podem superar os bilíngues para identificação de parafraseia e aumento de dados por meio de parafraseio, "concluíram os pesquisadores." Também relatamos que a qualidade de geração de modelos monolíngues pode ser maior do que modelos baseados em tradução não supervisionada, mas não tradução supervisionada. "

    As descobertas de Roy e Grangier sugerem que o uso de dados paralelos bilíngues (ou seja, textos e suas possíveis traduções em outras línguas) é particularmente vantajoso ao gerar paráfrases e leva a um desempenho notável. Em situações onde os dados bilíngues não estão prontamente disponíveis, Contudo, o modelo monolíngue proposto por eles pode ser um recurso útil ou solução alternativa.

    © 2019 Science X Network




    © Ciência https://pt.scienceaq.com