Os avanços na tecnologia de comunicação tiveram um grande impacto em todos os tipos de indústrias, mas talvez nada maior do que na educação. Agora, qualquer pessoa de todo o mundo pode ouvir ao vivo uma palestra ganhadora do Prêmio Nobel ou ganhar créditos das universidades mais conceituadas por meio do acesso à Internet. Contudo, as informações possíveis de serem obtidas assistindo e ouvindo online são perdidas se o público não consegue entender a linguagem do palestrante. Para resolver este problema, cientistas do Instituto de Ciência e Tecnologia de Nara (NAIST), Japão, apresentou uma solução com novo aprendizado de máquina na 240ª reunião do Grupo de Interesse Especial de Processamento de Linguagem Natural, Sociedade de Processamento de Informação do Japão (IPSJ SIG-NL).
Os sistemas de tradução automática tornaram extremamente simples solicitar direções em um país estrangeiro. As vezes, os sistemas podem cometer erros divertidos e inocentes, mas acima de tudo, eles alcançam uma comunicação coerente, pelo menos para trocas curtas, apenas uma ou duas frases longas. No caso de uma apresentação que pode se estender por mais de uma hora, como uma palestra acadêmica, eles são muito menos robustos.
"O NAIST tem 20 por cento de alunos estrangeiros e, enquanto o número de aulas de inglês está se expandindo, as opções que esses alunos têm são limitadas por sua habilidade em japonês, "explica o professor Satoshi Nakamura do NAIST, quem conduziu o estudo.
O grupo de pesquisa de Nakamura adquiriu 46,5 horas de vídeos de palestras arquivados do NAIST com suas transcrições e traduções para o inglês, e desenvolveu um sistema baseado em aprendizagem profunda para transcrever o discurso de palestras em japonês e, subsequentemente, traduzi-lo para o inglês. Enquanto assiste aos vídeos, os usuários veem legendas em japonês e inglês que correspondem à fala do palestrante.
Pode-se esperar que o resultado ideal seja traduções simultâneas que podem ser feitas com apresentações ao vivo. Contudo, as traduções ao vivo limitam o tempo de processamento e, portanto, a precisão. “Porque estamos colocando vídeos com legendas nos arquivos, encontramos traduções melhores criando legendas com um tempo de processamento mais longo, " ele diz.
A filmagem arquivada usada para a avaliação consistiu em palestras de robótica, processamento de voz e engenharia de software. Interessantemente, a taxa de erros de palavras no reconhecimento de fala correlacionou-se à disfluência na fala dos professores. Outro fator das diferentes taxas de erro foi o tempo de conversação sem pausa. O corpus utilizado para o treinamento ainda era insuficiente e deveria ser mais desenvolvido para melhorias futuras.
"O Japão quer aumentar seu número de estudantes internacionais e o NAIST tem uma grande oportunidade de ser um líder neste esforço. Nosso projeto não irá apenas melhorar a tradução automática, também trará mentes brilhantes para o país, " Ele continuou.