• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Uma rede convolucional para alinhar e prever anotações de emoção

    Um diagrama do sistema da rede MDS. Crédito:Khorram, McInnis &Provost.

    Modelos de aprendizado de máquina que podem reconhecer e prever emoções humanas se tornaram cada vez mais populares nos últimos anos. Para que a maioria dessas técnicas funcione bem, Contudo, os dados usados ​​para treiná-los são anotados primeiro por sujeitos humanos. Além disso, as emoções mudam continuamente ao longo do tempo, o que torna a anotação de vídeos ou gravações de voz particularmente desafiadora, frequentemente resultando em discrepâncias entre as gravadoras e as gravadoras.

    Para resolver essa limitação, pesquisadores da Universidade de Michigan desenvolveram recentemente uma nova rede neural convolucional que pode simultaneamente alinhar e prever anotações de emoção de ponta a ponta. Eles apresentaram sua técnica, chamada de rede de sincronização multi-atraso (MDS), em um artigo publicado em Transações IEEE em computação afetiva .

    "A emoção varia continuamente no tempo; ela diminui e diminui em nossas conversas" Emily Mower Provost, um dos pesquisadores que realizou o estudo, disse TechXplore. "Na engenharia, frequentemente usamos descrições contínuas de emoção para medir como a emoção varia. Nosso objetivo então se torna prever essas medidas contínuas a partir da fala. Mas há um porém. Um dos maiores desafios em trabalhar com descrições contínuas de emoção é que isso requer que tenhamos rótulos que variam continuamente no tempo. Isso é feito por equipes de anotadores humanos. Contudo, as pessoas não são máquinas. "

    Como Mower Provost continua a explicar, anotadores humanos às vezes podem estar mais sintonizados com pistas emocionais particulares (por exemplo, risada), mas perca o significado por trás de outras pistas (por exemplo, um suspiro exasperado). Além disso, humanos podem levar algum tempo para processar uma gravação, e assim, suas reações às pistas emocionais às vezes demoram. Como resultado, rótulos de emoção contínua podem apresentar muita variação e às vezes estão desalinhados com a fala nos dados.

    Em seu estudo, Mower Provost e seus colegas abordaram diretamente esses desafios, focando em duas medidas contínuas de emoção:positividade (valência) e energia (ativação / excitação). Eles introduziram a rede de sincronização multi-delay, um novo método para lidar com o desalinhamento entre a fala e as anotações contínuas que reage de maneira diferente a diferentes tipos de pistas acústicas.

    "Descrições dimensionais de emoções contínuas no tempo (por exemplo, excitação, valência) fornecem informações detalhadas sobre as mudanças de curto prazo e as tendências de longo prazo na expressão de emoções, "Soheil Khorram, outro pesquisador envolvido no estudo, disse TechXplore. "O objetivo principal do nosso estudo foi desenvolver um sistema de reconhecimento automático de emoções que seja capaz de estimar as emoções dimensionais contínuas no tempo a partir de sinais de fala. Este sistema pode ter uma série de aplicações no mundo real em diferentes campos, incluindo a interação humano-computador, e-learning, marketing, cuidados de saúde, entretenimento e direito. "

    A rede convolucional desenvolvida por Mower Provost, Khorram e seus colegas têm dois componentes principais, um para previsão de emoção e outro para alinhamento. O componente de previsão de emoção é uma arquitetura convolucional comum treinada para identificar a relação entre recursos acústicos e rótulos de emoção.

    O componente de alinhamento, por outro lado, é a nova camada introduzida pelos pesquisadores (ou seja, a camada de sincronização atrasada), que aplica uma mudança de tempo aprendível a um sinal acústico. Os pesquisadores compensaram a variação nos atrasos incorporando várias dessas camadas.

    "Um desafio importante no desenvolvimento de sistemas automáticos para prever rótulos emocionais contínuos no tempo a partir da fala é que esses rótulos geralmente não estão sincronizados com a fala de entrada, "Khorram explicou." Isso se deve principalmente aos atrasos causados ​​pelo tempo de reação, que é inerente às avaliações humanas. Em contraste com outras abordagens, nossa rede neural convolucional é capaz de alinhar e prever rótulos simultaneamente de ponta a ponta. A rede de sincronização multi-atraso aproveita os conceitos tradicionais de processamento de sinal (ou seja, filtragem de sincronização) em arquiteturas de aprendizado profundo modernas para lidar com o problema de atraso de reação. "

    Os pesquisadores avaliaram sua técnica em uma série de experimentos usando dois conjuntos de dados disponíveis publicamente, nomeadamente os conjuntos de dados RECOLA e SEWA. Eles descobriram que compensar os atrasos na reação dos anotadores durante o treinamento de seu modelo de reconhecimento de emoções levou a melhorias significativas na precisão do modelo de reconhecimento de emoções.

    Eles também observaram que os atrasos na reação dos anotadores ao definirem rótulos de emoção contínua normalmente não ultrapassam 7,5 segundos. Finalmente, suas descobertas sugerem que classes gramaticais que incluem risos geralmente requerem componentes de atraso menores em comparação com aqueles marcados por outras pistas emocionais. Em outras palavras, geralmente é mais fácil para os anotadores definirem rótulos de emoção em segmentos da fala que incluem risos.

    "A emoção está em toda parte e é fundamental para a nossa comunicação, "Mower Provost disse." Estamos construindo sistemas robustos e generalizáveis ​​de reconhecimento de emoções para que as pessoas possam acessar e usar facilmente essas informações. Parte desse objetivo é alcançado através da criação de algoritmos que podem usar efetivamente grandes fontes de dados externas, ambos rotulados e não, e modelando efetivamente a dinâmica natural que faz parte de como nos comunicamos emocionalmente. A outra parte é realizada dando sentido a toda a complexidade inerente aos próprios rótulos. "

    Embora Mower Provost, Khorram e seus colegas aplicaram sua técnica a tarefas de reconhecimento de emoção, também pode ser usado para aprimorar outros aplicativos de aprendizado de máquina nos quais as entradas e saídas não estão perfeitamente alinhadas. Em seu trabalho futuro, os pesquisadores planejam continuar investigando maneiras em que rótulos de emoção produzidos por anotadores humanos podem ser integrados de forma eficiente em dados.

    "Usamos um filtro de sincronização para aproximar a função delta de Dirac e compensar os atrasos. No entanto, Outras funções, como gaussiana e triangular, também pode ser empregado em vez do kernel de sincronização, "Khorram disse." Nosso trabalho futuro irá explorar o efeito do uso de diferentes tipos de grãos que podem se aproximar da função delta de Dirac. Adicionalmente, neste artigo, nos concentramos na modalidade de fala para prever anotações contínuas de emoção, enquanto a rede de sincronização multi-atraso proposta é uma técnica de modelagem razoável para outras modalidades de entrada também. Outro plano futuro é avaliar o desempenho da rede proposta em relação a outras modalidades fisiológicas e comportamentais, como:vídeo, linguagem corporal e EEG. "

    © 2019 Science X Network




    © Ciência https://pt.scienceaq.com