Crédito:Oticon
Para pessoas com perda auditiva, pode ser muito difícil entender e separar vozes em ambientes barulhentos. Este problema pode em breve ser história graças a um novo algoritmo inovador que é projetado para reconhecer e separar vozes de forma eficiente em ambientes sonoros desconhecidos.
Pessoas com audição normal geralmente conseguem se entender sem esforço ao se comunicarem em ambientes ruidosos. Contudo, para pessoas com perda auditiva, é muito difícil entender e separar vozes em ambientes barulhentos, e um aparelho auditivo pode realmente ajudar. Mas ainda há um caminho a percorrer quando se trata de processamento geral de som em aparelhos auditivos, explica Morten Kolbæk:
“Quando o cenário é conhecido com antecedência, como em certas configurações de teste clínico, algoritmos existentes já podem superar o desempenho humano quando se trata de reconhecer e distinguir alto-falantes. Contudo, em situações normais de escuta sem qualquer conhecimento prévio, o cérebro auditivo humano continua sendo a melhor máquina. "
Mas é exatamente nisso que Morten Kolbæk trabalhou para mudar com seu novo algoritmo.
"Por causa de sua capacidade de funcionar em ambientes desconhecidos com vozes desconhecidas, a aplicabilidade desse algoritmo é muito mais forte do que vimos com a tecnologia anterior. É um passo importante quando se trata de resolver situações desafiadoras de audição na vida cotidiana, "diz um dos dois supervisores de Morten Kolbæk, Jesper Jensen, Pesquisador sênior da Oticon e professor do Center for Acoustic Signal Processing Research (CASPR) da AAU.
Professor Zheng-Hua Tan, que também é afiliado ao CASPR e supervisor do projeto, concorda com o grande potencial do algoritmo dentro de pesquisas sólidas.
"A chave para o sucesso desse algoritmo é sua capacidade de aprender com os dados e, em seguida, construir modelos estatísticos poderosos que são capazes de representar situações de escuta complexas. Isso leva a soluções que funcionam muito bem mesmo em situações de escuta novas e desconhecidas, "explica Zheng-Hua Tan.
Redução de ruído e separação de fala
Especificamente, Ph.D. de Morten Kolbæk projeto lidou com dois cenários de escuta diferentes, mas bem conhecidos.
A primeira faixa se propõe a resolver os desafios de conversas individuais em espaços barulhentos, como cabines de carros. Os usuários de aparelhos auditivos enfrentam esses desafios regularmente.
“Para resolvê-los, desenvolvemos algoritmos que podem amplificar o som do alto-falante enquanto reduzem o ruído significativamente, sem qualquer conhecimento prévio sobre a situação de escuta. Os aparelhos auditivos atuais são pré-programados para uma série de situações diferentes, mas na vida real, o ambiente está mudando constantemente e requer um aparelho auditivo que seja capaz de ler a situação específica instantaneamente, "explica Morten Kolbæk.
A segunda faixa do projeto gira em torno da separação da fala. Este cenário envolve vários palestrantes, e o usuário de aparelho auditivo pode estar interessado em ouvir alguns ou todos eles. A solução é um algoritmo que pode separar vozes enquanto reduz o ruído. Esta faixa pode ser considerada uma extensão da primeira faixa, mas agora com duas ou mais vozes.
"Você pode dizer que o Morten descobriu isso ajustando algumas coisas aqui e ali, o algoritmo funciona com vários alto-falantes desconhecidos em ambientes barulhentos. Ambas as trilhas de pesquisa do Morten são significativas e atraíram muita atenção, "diz Jesper Jensen.
Redes neurais profundas
O método usado na criação dos algoritmos é chamado de "aprendizado profundo, "que se enquadra na categoria de aprendizado de máquina. Mais especificamente, Morten Kolbæk trabalhou com redes neurais profundas, um tipo de algoritmo que você treina alimentando-o com exemplos dos sinais que encontrará no mundo real.
"Se, por exemplo, falamos sobre fala no ruído, você fornece ao algoritmo um exemplo de uma voz em um ambiente barulhento e um da voz sem nenhum ruído. Desta maneira, o algoritmo aprende como processar o sinal ruidoso para obter um sinal de voz claro. Você alimenta a rede com milhares de exemplos, e durante este processo, aprenderá como processar uma determinada voz em um ambiente realista, "Jesper Jensen explica.
"O poder do aprendizado profundo vem de sua estrutura hierárquica, que é capaz de transformar sinais de voz barulhentos ou mistos em vozes limpas ou separadas por meio do processamento camada por camada. O uso disseminado do aprendizado profundo hoje se deve a três fatores principais:aumentando o poder de computação, quantidade crescente de big data para algoritmos de treinamento e novos métodos para treinar redes neurais profundas, "diz Zheng-Hua Tan.
Um computador atrás da orelha
Uma coisa é desenvolver o algoritmo, outra é fazê-lo funcionar em um aparelho auditivo real. Atualmente, O algoritmo de Morten Kolbæk para separação de fala funciona apenas em uma escala maior.
“Quando se trata de aparelhos auditivos, o desafio é sempre fazer a tecnologia funcionar em um pequeno computador atrás da orelha. E neste momento, O algoritmo do Morten requer muito espaço para isso. Mesmo que o algoritmo de Mortens possa separar várias vozes desconhecidas umas das outras, não é possível escolher qual voz apresentar ao usuário de aparelho auditivo. Portanto, existem alguns problemas práticos que precisamos resolver antes de podermos introduzi-lo em uma solução de aparelho auditivo. Contudo, o mais importante é que agora esses problemas parecem solucionáveis. "
O fenômeno da festa
Pessoas com audição normal muitas vezes são capazes de se concentrar em um alto-falante de interesse, mesmo em situações acusticamente difíceis, onde outras pessoas estão falando simultaneamente. Conhecido como o fenômeno da festa, o problema gerou uma área de pesquisa muito ativa sobre como o cérebro humano é capaz de resolver esse problema tão bem. Com este Ph.D. projeto, estamos um passo mais perto de resolver este problema, Jesper Jensen explica:
"Às vezes você ouve que o problema da festa foi resolvido. Ainda não é o caso. Se o ambiente e as vozes são completamente desconhecidos, que costuma ser o caso no mundo real, a tecnologia atual simplesmente não pode se igualar ao cérebro humano, que funciona extremamente bem em ambientes desconhecidos. Mas o algoritmo do Morten é um passo importante para fazer com que as máquinas funcionem e ajudem as pessoas com audição normal e aquelas com perda auditiva em tais ambientes, " ele diz.