Pesquisadores da Penn State estão explorando se os computadores podem ser treinados para "ler" a linguagem corporal dos outros em busca de pistas sobre seu estado emocional, como os humanos podem. Crédito:Adobe Stock:Sergio Lamacchia
Os humanos são capazes de "ler" a linguagem corporal dos outros em busca de pistas sobre seu estado emocional. Por exemplo, percebendo que um amigo está nervoso com o bater do pé, ou que um ente querido que está de pé se sente confiante. Agora, uma equipe de pesquisadores da Penn State está explorando se os computadores podem ser treinados para fazer o mesmo.
A equipe está investigando se as técnicas modernas de visão computacional podem corresponder à capacidade cognitiva dos humanos em reconhecer expressões corporais no mundo real, situações irrestritas. Se então, esses recursos podem permitir um grande número de aplicações inovadoras em áreas, incluindo gerenciamento e recuperação de informações, segurança Pública, atendimento ao paciente e mídia social, disseram os pesquisadores.
"Computadores e robôs no futuro interagirão com mais pessoas, "disse James Wang, professor do Colégio de Ciências e Tecnologia da Informação (IST) e membro da equipa de investigação. "Os computadores de hoje, em grande medida, apenas siga as ordens. No futuro, robôs e computadores agirão mais como parceiros dos humanos e trabalharão juntos. E para fazer isso, eles precisam entender suas emoções. "
O candidato ao doutorado do College of IST, Yu Luo, trabalhando com Wang e outros professores da equipe, processou um grande número de clipes de filme e construiu um conjunto de dados de mais de 13, 000 caracteres humanos com quase 10, 000 movimentos corporais. De acordo com os pesquisadores, estudos têm mostrado que o corpo humano pode ser mais diagnóstico do que o rosto no reconhecimento das emoções humanas.
"O termo em psicologia é chamado de 'edição social, '"disse Luo." As pessoas podem usá-lo para manipular sua expressão facial, mas é muito mais difícil controlar seu corpo. A linguagem corporal projeta emoções diferentes. "
Próximo, os pesquisadores usaram métodos de visão computacional para localizar e rastrear cada pessoa em diferentes quadros na cena, no final das contas, marcando cada indivíduo em um clipe com um número de identificação exclusivo. Finalmente, os pesquisadores utilizaram anotadores humanos crowdsourced para revisar os clipes de filme e identificar a emoção de cada indivíduo apresentado em uma das 26 emoções categóricas, ou seja, Paz, afeição, estima, antecipação, noivado, confiança, felicidade, prazer, excitação, surpresa, simpatia, confusão, desconexão, fadiga, embaraço, anseio, desaprovação, aversão, aborrecimento, raiva, sensibilidade, tristeza, inquietação, temer, dor e sofrimento, bem como nas três dimensões da emoção, ou seja, valência, excitação e domínio.
"Descobrimos que interpretar a emoção com base na linguagem corporal é complexo, "disse Wang." Há muitas sutilezas que estamos tentando entender. Mesmo para os humanos, existem muitas inconsistências.
"As pessoas não concordam umas com as outras quando se trata de interpretar emoções, "ele acrescentou." Você pode pensar que uma pessoa é feliz, Eu posso pensar que eles estão animados, e talvez nós dois estejamos corretos. Muitas vezes não há verdade fundamental, o que torna a modelagem baseada em dados altamente desafiadora. "
Depois que os pesquisadores construíram o conjunto de dados e aplicaram as anotações emocionais percebidas por humanos para cada indivíduo, eles usaram técnicas estatísticas de última geração para validar seus mecanismos de controle de qualidade e analisaram exaustivamente o nível de consenso de seus rótulos de dados verificados. Avançar, eles construíram sistemas automatizados de reconhecimento de emoções a partir de esqueletos humanos e sequências de imagens. Especificamente, técnicas de aprendizagem profunda e feitas à mão, Recursos baseados em análise de movimento Laban demonstraram eficácia para a tarefa.
Eles descobriram que o modelo do computador pode identificar a excitação, ou quão energizada é a experiência, com alto nível de precisão. Contudo, os pesquisadores também descobriram que os humanos são melhores do que os computadores para identificar a valência - quão negativa ou positiva é a experiência.
Os resultados atuais foram possíveis graças a uma bolsa-semente do College of IST e a pesquisa em andamento é apoiada por um prêmio recente do Amazon Research Award Program. A equipe também recebeu recentemente um projeto de planejamento da National Science Foundation para construir uma comunidade para desenvolver a infraestrutura de dados a ser utilizada nesta pesquisa.
Wang e Luo trabalharam com outros pesquisadores da Penn State no projeto, incluindo Jianbo Ye, ex-aluno de doutoramento e colega de laboratório no College of IST; Reginald Adams e Michelle Newman, professores de psicologia; e Jia Li, professor de estatística. Um pedido provisório de patente foi apresentado recentemente, e o trabalho será publicado em uma próxima edição da International Journal of Computer Vision .
“A barreira de entrada para essa linha de pesquisa é bem alta, "disse Wang." Você tem que usar o conhecimento da psicologia, você tem que desenvolver e integrar métodos de ciência de dados, e você tem que usar modelagem estatística para coletar dados afetivos de maneira adequada. Isso mostra que estamos na vanguarda das ciências e da tecnologia neste importante subdomínio de informações. "