Os pesquisadores desenvolvem um método de análise de cena acústica mais abrangente

As previsões de sons foram alcançadas por um método aprimorado desenvolvido por uma equipe internacional de pesquisadores. Crédito: IEEE / CAA Journal of Automatica Sinica

Os pesquisadores demonstraram um método aprimorado para que as máquinas de análise de áudio processem nosso mundo barulhento. Sua abordagem depende da combinação de escalogramas e espectrogramas - as representações visuais de áudio - bem como redes neurais convolucionais (CNNs), as máquinas de ferramentas de aprendizagem usam para analisar melhor as imagens visuais. Nesse caso, as imagens visuais são usadas para analisar o áudio para melhor identificar e classificar o som.

A equipe publicou seus resultados no jornal IEEE / CAA Journal of Automatica Sinica ( JAS ), uma publicação conjunta do IEEE e da Associação Chinesa de Automação.

"As máquinas fizeram um grande progresso na análise da fala e da música, mas a análise geral de som tem ficado para trás - normalmente, a maioria dos "eventos" de som isolados, como tiros de arma de fogo e similares, foram alvejados no passado, "disse Björn Schuller, professor e presidente de Embedded Intelligence for Health Care and Wellbeing na University of Augsburg, na Alemanha, quem liderou a pesquisa. "O áudio do mundo real geralmente é uma mistura altamente combinada de diferentes fontes de som - cada uma com diferentes estados e características."

Schuller cita o som de um carro como exemplo. Não é um evento de áudio único; bastante diferentes partes das peças do carro, seus pneus interagindo com a estrada, a marca e a velocidade do carro fornecem suas próprias assinaturas exclusivas.

"Ao mesmo tempo, pode haver música ou fala no carro, "disse Schuller, que também é professor associado de aprendizado de máquina no Imperial College London, e um professor visitante na Escola de Ciência da Computação e Tecnologia do Harbin Institute of Technology na China. "Uma vez que os computadores podem entender todas as partes desta 'cena acústica', eles serão consideravelmente melhores em decompor em cada parte e atribuir cada parte conforme descrito. "

Os espectrogramas fornecem uma representação visual de cenas de áudio, mas eles têm uma resolução fixa de tempo e frequência, esse é o momento em que as frequências mudam. Escalogramas, por outro lado, oferecem uma representação visual mais detalhada de cenas acústicas do que espectrogramas, por exemplo, Agora, cenas acústicas como a música ou a fala ou outros sons no carro podem ser melhor representadas.

"Normalmente, há vários sons acontecendo em uma cena, então ... deve haver várias frequências e elas mudam com o tempo, "disse Zhao Ren, um autor no artigo e um Ph.D. candidato da Universidade de Augsburg que trabalha com Schuller. "Felizmente, os escalogramas podem resolver esse problema exatamente porque incorpora várias escalas. "

"Os escalogramas podem ser empregados para ajudar os espectrogramas na extração de recursos para classificação de cena acústica, "Ren disse, e tanto os espectrogramas quanto os escalogramas precisam ser capazes de aprender para continuar melhorando.

"Avançar, redes neurais pré-treinadas constroem uma ponte entre [a] imagem e o processamento de áudio. "

As redes neurais pré-treinadas que os autores usaram são Redes Neurais Convolucionais (CNNs). CNNs são inspirados em como os neurônios funcionam no córtex visual dos animais e as redes neurais artificiais podem ser usadas para processar imagens visuais com sucesso. Essas redes são cruciais no aprendizado de máquina, e neste caso, ajudando a melhorar os escalogramas.

CNNs recebem algum treinamento antes de serem aplicados em uma cena, mas eles aprendem principalmente com a exposição. Ao aprender sons de uma combinação de diferentes frequências e escalas, o algoritmo pode prever melhor as fontes e, eventualmente, prever o resultado de um ruído incomum, como o mau funcionamento do motor de um carro.

"O objetivo final é ouvir / escutar por máquina de maneira holística ... através da fala, música, e soar exatamente como um ser humano faria, "Schuller disse, observando que isso se combinaria com o trabalho já avançado em análise de fala para fornecer uma compreensão mais rica e profunda, "para, então, ser capaz de obter 'a imagem completa' no áudio."

Marco para baterias de estado sólido de última geração para alimentar futuros veículos elétricos de longo alcance

Vida útil de novas tecnologias de células solares para aumentar dez vezes

Eletrônicos

Receita do Baidu no terceiro trimestre supera as expectativas, mas lucro cai

Pesquisadores da OTAN:a mídia social não consegue impedir a manipulação

Bezos otimista nas lojas físicas da Amazon Go

Ciência

Defeitos nas nanopartículas ajudam a impulsionar a produção de hidrogênio, um combustível de queima limpa

Como o ciclo de rotação do sóis influencia a atividade dos raios na Terra?

Quais são os três principais tipos de microscópios