Uma equipe de pesquisa do Instituto Nacional de Informática (NII / Tóquio, Japão) incluindo Xin Wang, Shinji Takaki e Junichi Yamagishi desenvolveram um modelo de filtro de fonte neural (NSF) para alta velocidade, síntese de voz de alta qualidade. Esta técnica, que combina algoritmos de aprendizagem profunda recentes e um modelo clássico de produção de fala datado da década de 1960, é capaz não apenas de gerar formas de onda de voz de alta qualidade semelhantes à voz humana, mas também de conduzir um aprendizado estável por meio de redes neurais.
A data, muitos sistemas de síntese de voz adotaram a abordagem de vocoder, um método para sintetizar formas de onda de voz amplamente utilizado em redes de telefones celulares e outras aplicações. Contudo, a qualidade das formas de onda da fala sintetizadas por esses métodos permaneceu inferior à da voz humana. Em 2016, uma influente empresa de tecnologia no exterior propôs o WaveNet - um método de síntese de fala baseado em algoritmos de aprendizado profundo - e demonstrou a capacidade de sintetizar formas de onda de fala de alta qualidade que se assemelham à voz humana. Contudo, uma desvantagem do WaveNet é a estrutura extremamente complexa de suas redes neurais, que demandam grandes quantidades de dados de voz para aprendizado de máquina e requerem ajuste de parâmetro e vários outros procedimentos de tentativa e erro laboriosos a serem repetidos muitas vezes antes que previsões precisas possam ser obtidas.
Visão geral e realizações da pesquisa
Um dos vocoders mais conhecidos é o vocoder de filtro de origem, que foi desenvolvido na década de 1960 e continua em uso generalizado hoje. A equipe de pesquisa do NII infundiu o método de codificador de voz de filtro de fonte convencional com algoritmos de rede neural modernos para desenvolver uma nova técnica para sintetizar formas de onda de voz de alta qualidade que se assemelham à voz humana. Entre as vantagens deste método de filtro de fonte neural (NSF) é a estrutura simples de suas redes neurais, que requerem apenas cerca de uma hora de dados de voz para aprendizado de máquina e podem obter resultados preditivos corretos sem ajuste extensivo de parâmetros. Além disso, testes de audição em grande escala demonstraram que as formas de onda de fala produzidas por técnicas NSF são comparáveis em qualidade àquelas geradas por WaveNet.
Como a base teórica da NSF difere das tecnologias patenteadas usadas por influentes empresas de ICT no exterior, a adoção de técnicas de NSF provavelmente estimulará novos avanços tecnológicos na síntese da fala. Por esta razão, o código-fonte que implementa o método NSF foi disponibilizado ao público sem nenhum custo, permitindo que seja amplamente utilizado.