Espectrogramas de exemplo de cada uma das 4 classes incluídas. Crédito:Papakostas et al.
Pesquisadores da Universidade do Texas em Arlington exploraram recentemente o uso de aprendizado de máquina para reconhecimento de emoções com base exclusivamente em informações paralinguísticas. Paralinguística são aspectos da comunicação falada que não envolvem palavras, como arremesso, volume, entonação, etc.
Avanços recentes no aprendizado de máquina levaram ao desenvolvimento de ferramentas que podem reconhecer estados emocionais por meio da análise de imagens, gravações de voz, eletroencefalogramas ou eletrocardiogramas. Essas ferramentas podem ter várias aplicações interessantes, por exemplo, permitindo interações homem-computador mais eficientes, nas quais um computador reconhece e responde às emoções de um usuário humano.
"Em geral, pode-se argumentar que a fala carrega dois tipos distintos de informação:informação explícita ou lingüística, que diz respeito a padrões articulados pelo falante; e informações implícitas ou paralinguísticas, que diz respeito à variação na pronúncia dos padrões linguísticos, "escreveram os pesquisadores em seu artigo, publicado no Avanços em Medicina Experimental e Biologia Série de livros. "Usando um ou ambos os tipos de informação, pode-se tentar classificar um segmento de áudio que consiste em fala, com base nas emoções que carrega. Contudo, o reconhecimento de emoções a partir da fala parece ser uma tarefa significativamente difícil, mesmo para um ser humano, não importa se ele / ela é um especialista neste campo (por exemplo, um psicólogo). "
Muitas abordagens existentes de reconhecimento automático de fala (ASR) tentam reconhecer as emoções da fala analisando as informações linguísticas e paralinguísticas. Concentrando-se parcialmente nas propriedades linguísticas, esses modelos têm várias desvantagens, como uma dependência estrita de idioma. Os pesquisadores, portanto, decidiram focar no reconhecimento de emoções com base apenas na análise de informações paralinguísticas, com a esperança de alcançar o reconhecimento multilíngue de emoções.
"Nesse artigo, pretendemos analisar as emoções dos falantes com base apenas em informações paralinguísticas, "os pesquisadores escreveram em seu artigo." Comparamos duas abordagens de aprendizado de máquina, a saber, uma rede neural convolucional (CNN) e uma máquina de vetores de suporte (SVM). "
Os pesquisadores treinaram um modelo CNN em espectrogramas brutos e um modelo SVM em um conjunto de recursos de baixo nível. Ambos os modelos foram treinados e avaliados usando três conjuntos de dados de fala emocional amplamente conhecidos:EMOVO, SALVAR, e EMO-DB. Esses conjuntos de dados contêm gravações de fala emocional em diferentes idiomas - italiano, Inglês e alemão, respectivamente.
Os dois modelos de aprendizado de máquina foram treinados para reconhecer quatro classes de emoções comuns:felicidade, tristeza, raiva e neutro. Os pesquisadores realizaram três experimentos para cada abordagem de aprendizado de máquina, onde um único conjunto de dados foi usado para teste e os dois restantes para treinamento.
"Uma grande dificuldade resultante da escolha dos conjuntos de dados é a grande diferença entre os idiomas, pois além das diferenças linguísticas, há também uma grande variabilidade na forma como cada emoção é expressa, "escreveram os pesquisadores em seu artigo.
Geral, eles descobriram que o SVM teve um desempenho muito melhor do que a CNN, alcançar os melhores resultados quando treinado nos conjuntos de dados SAVEE e EMOVO, mas testado em EMO-DB. Esses resultados foram promissores, mas não ótimos, sugerindo que ainda estamos muito longe de atingir um reconhecimento de emoção multilíngue consistente e eficaz.
"Nossos planos para trabalhos futuros incluem o uso de mais conjuntos de dados para treinamento e avaliação, "os pesquisadores escreveram em seu artigo." Também pretendemos investigar outras redes de aprendizagem profunda pré-treinadas, uma vez que sentimos que o aprendizado profundo pode contribuir significativamente para o problema em questão. Finalmente, entre nossos planos é aplicar essas abordagens a problemas da vida real, por exemplo. reconhecimento de emoções em programas de treinamento e / ou educacionais. "
© 2018 Science X Network