Interface do estudo de crowdsourcing. Crédito:Fan et al.
As técnicas de aprendizado profundo estão provando ser extremamente úteis para analisar todos os tipos de dados, variando de imagens a texto, publicações online e gravações de áudio. Essas técnicas são projetadas para identificar padrões em grandes conjuntos de dados, separar itens em categorias diferentes e fazer previsões muito mais rápidas do que os humanos.
Em um estudo recente, pesquisadores da Simon Fraser University, A Academia Sinica e o Dartmouth College aplicaram técnicas de aprendizado profundo para identificar semelhanças e diferenças entre a música clássica chinesa e ocidental. Seu papel, pré-publicado no arXiv, apresenta uma análise comparativa de gravações musicais usando modelos de detecção de evento de som (SED) e reconhecimento de emoção de paisagem sonora (SER).
"Ouvimos música clássica chinesa e ocidental, "Jianyu Fan, um dos pesquisadores que realizou o estudo, disse TechXplore. "Sentimos que vários fatores diferenciam a música chinesa da ocidental, incluindo sua cultura subjacente, filosofia e modo de pensar. É por isso que estamos muito interessados em estudos que comparem a música chinesa e ocidental. "
Modelos de aprendizado profundo para a análise de gravações musicais às vezes podem funcionar mal, enquanto lutam para aprender padrões em informações de alto nível, como a melodia de uma música, harmonia, etc. Para superar as limitações encontradas em estudos anteriores, Fan e seus colegas aplicaram modelos de paisagens sonoras para a análise da música clássica chinesa e ocidental, para avaliar sua eficácia na identificação de semelhanças e diferenças entre os dois subgêneros.
A distribuição de anotações emocionais da música clássica ocidental. Crédito:Fan et al.
Inicialmente, os pesquisadores compilaram dois conjuntos de dados anotados contendo gravações de música chinesa e ocidental, apelidado de WCMED e CCMED. Subseqüentemente, eles treinaram um SED pré-treinado e um modelo de SER pré-treinado nesses conjuntos de dados separadamente, combinando ambos com um modelo de regressão de vetor de suporte (SVR). Os modelos SED são projetados para detectar eventos de som em sinais de áudio, enquanto os modelos SER são treinados para reconhecer a emoção transmitida por gravações de paisagens sonoras.
"Embora os estudos anteriores de música usem principalmente modelos baseados na música, estávamos curiosos para saber se um modelo treinado em paisagem sonora geral pode ser usado para analisar música e como eles são diferentes para a música clássica chinesa e ocidental, "Fan explicou." Portanto, tentamos usar dois modelos baseados no som geral:um modelo de detecção de evento de som e um modelo de reconhecimento de emoção de paisagem sonora. "
Os pesquisadores usaram técnicas de aprendizagem por transferência para extrair representações de som de alto nível. Eles então usaram essas representações para treinar seu modelo de reconhecimento de emoção musical para detectar emoções transmitidas por gravações musicais. Como seu modelo foi pré-treinado para generalizar as características do som, eles descobriram que essas representações funcionavam melhor quando combinadas com um modelo mais simples, especialmente para a análise da música clássica chinesa. Os pesquisadores também treinaram um classificador de aprendizado profundo nos conjuntos de dados que criaram e conduziram análises adicionais com foco em características específicas das canções chinesas e ocidentais.
"Como nosso objetivo é usar modelos de paisagem sonora pré-treinados para analisar e comparar a música clássica chinesa e ocidental, não esperávamos que o modelo funcionasse perfeitamente bem para diferentes tipos de áudio e diferentes tipos de tarefas, "Fan disse." No entanto, nossos resultados sugerem que é eficaz para prever o despertar da música clássica chinesa e ocidental usando modelos de paisagens sonoras. "
A distribuição de anotações emocionais da música clássica chinesa. Crédito:Fan et al
As descobertas coletadas por Fan e seus colegas sugerem que os modelos SED e SER são ferramentas promissoras para a análise de gravações musicais. Interessantemente, a análise comparativa da música clássica chinesa e ocidental usando essas técnicas levou a resultados que estão alinhados com as ideias apresentadas por teóricos da música na China.
Os pesquisadores também observaram que seu classificador de aprendizado profundo reconheceu as gravações de paisagens sonoras como música clássica chinesa. Isso sugere que as gravações de paisagens sonoras geralmente compartilham mais semelhanças com a música clássica chinesa do que com a música clássica ocidental.
"Nosso estudo destacou que existem certas semelhanças entre a música clássica chinesa e as gravações de paisagens sonoras, "Fan disse." Esses resultados estão alinhados com aqueles relatados por musicólogos chineses e filósofos da música clássica chineses. "
No futuro, o estudo realizado por esta equipe de pesquisadores pode inspirar outros estudos comparando diferentes gêneros musicais a partir da análise de modelos de paisagens sonoras. Enquanto isso, Fan e seus colegas planejam continuar investigando as semelhanças e diferenças entre a música chinesa e ocidental usando métodos de aprendizado profundo, enquanto também tenta construir modelos que podem compor automaticamente nova música clássica.
© 2020 Science X Network