Textos de 34 versões da Bíblia em inglês foram usados para ajudar a melhorar os sistemas de transferência de estilo baseados em computador. O resultado pode criar diferentes versões de passagens escritas para atender a públicos específicos. Crédito:Foto da Bíblia:Chris Downer. Ilustração composta:Keith Carlson.
Em busca de inspiração para melhorar os tradutores de texto baseados em computador, pesquisadores do Dartmouth College buscaram orientação na Bíblia. O resultado é um algoritmo treinado em várias versões dos textos sagrados que pode converter obras escritas em estilos diferentes para públicos diferentes.
As ferramentas da Internet para traduzir textos entre idiomas como inglês e espanhol estão amplamente disponíveis. A criação de tradutores de estilo - ferramentas que mantêm o texto no mesmo idioma, mas transformam o estilo - demorou muito para surgir. Em parte, os esforços para desenvolver os tradutores têm sido frustrados pela dificuldade de adquirir a enorme quantidade de dados necessária. Foi aqui que a equipe de pesquisa se voltou para a Bíblia.
Além de ser uma fonte de orientação espiritual para muitas pessoas ao redor do mundo, a equipe liderada por Dartmouth viu na Bíblia "um grande, conjunto de dados anteriormente inexplorado de texto paralelo alinhado. "Além de fornecer inspiração infinita, cada versão da Bíblia contém mais de 31, 000 versos que os pesquisadores usaram para produzir mais de 1,5 milhão de pares únicos de versos de origem e destino para conjuntos de treinamento de aprendizado de máquina.
De acordo com a pesquisa publicada na revista. Royal Society Open Science , este não é o primeiro conjunto de dados paralelo criado para tradução de estilo. Mas é o primeiro que usa a Bíblia. Outros textos que foram usados no passado, variando de Shakespeare a entradas da Wikipedia, fornecer conjuntos de dados que são muito menores ou não tão adequados para a tarefa de tradução de estilos de aprendizagem.
"A Bíblia em inglês vem em muitos estilos diferentes de escrita, tornando-o o texto-fonte perfeito para trabalhar na tradução de estilos, "disse Keith Carlson, um Ph.D. estudante em Dartmouth e principal autor do artigo de pesquisa sobre o estudo.
Como um benefício adicional para a equipe de pesquisa, a Bíblia já está totalmente indexada pelo uso consistente do livro, números do capítulo e do versículo. A organização previsível do texto entre as versões elimina o risco de erros de alinhamento que podem ser causados por métodos automáticos de correspondência de diferentes versões do mesmo texto.
"A Bíblia é um conjunto de dados 'divinos' com o qual trabalhar para estudar esta tarefa, "disse Daniel Rockmore, professor de ciência da computação em Dartmouth e autor colaborador do estudo. "Os humanos têm desempenhado a tarefa de organizar os textos bíblicos por séculos, portanto, não precisávamos confiar em algoritmos de alinhamento menos confiáveis. "
Para definir o "estilo" do estudo, os pesquisadores fazem referência ao comprimento da frase, o uso de vozes passivas ou ativas, e escolha de palavras que pode resultar em textos com vários graus de simplicidade ou formalidade. De acordo com o estudo:"Frases diferentes podem transmitir níveis diferentes de polidez ou familiaridade com o leitor, exibem diferentes informações culturais sobre o escritor, ser mais fácil de entender para certas populações. "
A equipe usou 34 versões da Bíblia estilisticamente distintas, variando em complexidade linguística da "Versão do Rei James" à "Bíblia em Inglês Básico". Os textos foram alimentados em dois algoritmos - um sistema de tradução automática estatística chamado "Moisés" e uma estrutura de rede neural comumente usada na tradução automática, "Seq2Seq."
Embora diferentes versões da Bíblia tenham sido usadas para treinar o código do computador, em última análise, poderiam ser desenvolvidos sistemas que traduzissem o estilo de qualquer texto escrito para públicos diferentes. Por exemplo, um tradutor de estilo pode pegar uma seleção do idioma inglês de "Moby Dick" e traduzi-la em diferentes versões adequadas para jovens leitores, falantes não nativos de inglês, ou qualquer um de uma variedade de públicos.
"A simplificação de texto é apenas um tipo específico de transferência de estilo. De forma mais ampla, nossos sistemas visam produzir texto com o mesmo significado do original, mas faça isso com palavras diferentes, "disse Carlson.
O Dartmouth College tem uma longa história de inovação em ciência da computação. O termo "inteligência artificial" foi cunhado em Dartmouth durante uma conferência de 1956 que criou a disciplina de pesquisa em IA. Outros avanços incluem o design do BASIC - a primeira linguagem de programação acessível e de uso geral - e o Dartmouth Time-Sharing System que contribuiu para o sistema operacional moderno.