• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Modelos de aprendizado de máquina personalizados capturam variações sutis nas expressões faciais para avaliar melhor as emoções

    Os pesquisadores do MIT Media Lab desenvolveram um modelo de aprendizado de máquina que leva os computadores um passo mais perto de interpretar nossas emoções tão naturalmente quanto os humanos. O modelo captura melhor as variações sutis da expressão facial para avaliar melhor o humor. Usando dados extras de treinamento, o modelo também pode ser adaptado a um grupo totalmente novo de pessoas, com a mesma eficácia. Crédito:Massachusetts Institute of Technology

    Os pesquisadores do MIT Media Lab desenvolveram um modelo de aprendizado de máquina que leva os computadores um passo mais perto de interpretar nossas emoções tão naturalmente quanto os humanos.

    No campo crescente da "computação afetiva, "robôs e computadores estão sendo desenvolvidos para analisar expressões faciais, interpretar nossas emoções, e responda de acordo. Os aplicativos incluem, por exemplo, monitorar a saúde e o bem-estar de um indivíduo, avaliar o interesse dos alunos nas salas de aula, ajudando a diagnosticar sinais de certas doenças, e desenvolver companheiros robóticos úteis.

    Um desafio, Contudo, as pessoas expressam emoções de maneira bem diferente, dependendo de muitos fatores. As diferenças gerais podem ser vistas entre as culturas, gêneros, e grupos de idade. Mas outras diferenças são ainda mais refinadas:a hora do dia, quanto voce dormiu, ou até mesmo seu nível de familiaridade com um parceiro de conversa leva a variações sutis na maneira como você se expressa, dizer, felicidade ou tristeza em um determinado momento.

    O cérebro humano capta instintivamente esses desvios, mas as máquinas lutam. Técnicas de aprendizado profundo foram desenvolvidas nos últimos anos para ajudar a captar as sutilezas, mas eles ainda não são tão precisos ou adaptáveis ​​em diferentes populações como poderiam ser.

    Os pesquisadores do Media Lab desenvolveram um modelo de aprendizado de máquina que supera os sistemas tradicionais na captura dessas pequenas variações de expressão facial, para avaliar melhor o humor durante o treinamento em milhares de imagens de rostos. Além disso, usando alguns dados extras de treinamento, o modelo pode ser adaptado a um grupo totalmente novo de pessoas, com a mesma eficácia. O objetivo é melhorar as tecnologias de computação afetiva existentes.

    "Esta é uma maneira discreta de monitorar nosso humor, "diz Oggi Rudovic, um pesquisador do Media Lab e co-autor de um artigo que descreve o modelo, que foi apresentado na semana passada na Conferência sobre Aprendizado de Máquina e Mineração de Dados. “Se você quer robôs com inteligência social, você tem que fazê-los responder de forma inteligente e natural aos nossos humores e emoções, mais como humanos. "

    Os co-autores do artigo são:primeiro autor Michael Feffer, um estudante de graduação em engenharia elétrica e ciência da computação; e Rosalind Picard, professor de artes e ciências da mídia e diretor fundador do grupo de pesquisa Affective Computing.

    Especialistas personalizados

    Os modelos tradicionais de computação afetiva usam um conceito de "tamanho único". Eles treinam em um conjunto de imagens que representam várias expressões faciais, otimizar recursos - como a forma como um lábio se curva ao sorrir - e mapear essas otimizações gerais de recursos em todo um conjunto de novas imagens.

    Os pesquisadores, em vez de, combinou uma técnica, chamado de "mistura de especialistas" (MoE), com técnicas de personalização de modelos, o que ajudou a extrair dados mais refinados de expressões faciais de indivíduos. Esta é a primeira vez que essas duas técnicas foram combinadas para a computação afetiva, Rudovic diz.

    Em MoEs, uma série de modelos de rede neural, chamados de "especialistas, "são cada um treinado para se especializar em uma tarefa de processamento separada e produzir uma saída. Os pesquisadores também incorporaram uma" rede de portas, "que calcula as probabilidades de qual especialista detectará melhor o humor de assuntos invisíveis." Basicamente, a rede pode discernir entre indivíduos e dizer:'Este é o especialista certo para a imagem fornecida, '"Feffer diz.

    Para seu modelo, os pesquisadores personalizaram os MoEs combinando cada especialista a uma das 18 gravações de vídeo individuais no banco de dados RECOLA, um banco de dados público de pessoas conversando em uma plataforma de chat de vídeo projetada para aplicativos de computação afetiva. Eles treinaram o modelo usando nove sujeitos e os avaliaram nos outros nove, com todos os vídeos divididos em quadros individuais.

    Cada especialista, e a rede de portas, rastreou as expressões faciais de cada indivíduo, com a ajuda de uma rede residual ("ResNet"), uma rede neural usada para classificação de objetos. Ao fazer isso, o modelo pontuou cada quadro com base no nível de valência (agradável ou desagradável) e excitação (excitação) - métricas comumente usadas para codificar diferentes estados emocionais. Separadamente, seis especialistas humanos rotularam cada quadro para valência e excitação, com base em uma escala de -1 (níveis baixos) a 1 (níveis altos), que o modelo também costumava treinar.

    Os pesquisadores então realizaram mais personalização do modelo, onde eles alimentaram os dados do modelo treinado de alguns quadros dos vídeos restantes dos assuntos, e então testei o modelo em todos os quadros não vistos desses vídeos. Os resultados mostraram que, com apenas 5 a 10 por cento dos dados da nova população, o modelo superou os modelos tradicionais por uma grande margem - o que significa que marcou valência e excitação em imagens invisíveis muito mais próximas das interpretações de especialistas humanos.

    Isso mostra o potencial dos modelos para se adaptarem de população para população, ou de indivíduo para indivíduo, com muito poucos dados, Rudovic diz. "Essa é a chave, "ele diz." Quando você tem uma nova população, você tem que ter uma maneira de contabilizar a mudança na distribuição de dados [variações faciais sutis]. Imagine um modelo definido para analisar expressões faciais em uma cultura que precisa ser adaptado para uma cultura diferente. Sem levar em conta essa mudança de dados, esses modelos terão um desempenho inferior. Mas se você apenas experimentar um pouco de uma nova cultura para adaptar nosso modelo, esses modelos podem fazer muito melhor, especialmente no nível individual. É aqui que a importância da personalização do modelo pode ser melhor percebida. "

    Os dados atualmente disponíveis para essa pesquisa de computação afetiva não são muito diversos nas cores da pele, portanto, os dados de treinamento dos pesquisadores eram limitados. Mas quando esses dados estiverem disponíveis, o modelo pode ser treinado para uso em populações mais diversas. O próximo passo, Feffer diz, é treinar o modelo em "um conjunto de dados muito maior com culturas mais diversas".

    Melhores interações entre máquina e homem

    Outro objetivo é treinar o modelo para ajudar os computadores e robôs a aprenderem automaticamente com pequenas quantidades de dados variáveis ​​para detectar mais naturalmente como nos sentimos e atender melhor às necessidades humanas, dizem os pesquisadores.

    Poderia, por exemplo, executado no fundo de um computador ou dispositivo móvel para rastrear as conversas de um usuário baseadas em vídeo e aprender mudanças sutis de expressão facial em diferentes contextos. "Você pode fazer com que coisas como aplicativos para smartphones ou sites possam dizer como as pessoas estão se sentindo e recomendar maneiras de lidar com o estresse ou a dor, e outras coisas que estão impactando negativamente suas vidas, "Feffer diz.

    Isso também pode ser útil no monitoramento, dizer, depressão ou demência, já que as expressões faciais das pessoas tendem a mudar sutilmente devido a essas condições. "Ser capaz de monitorar passivamente nossas expressões faciais, "Rudovic diz, "Poderíamos, com o tempo, personalizar esses modelos para os usuários e monitorar quantos desvios eles têm diariamente - desviando-se do nível médio de expressividade facial - e usá-los para indicadores de bem-estar e saúde."

    Um aplicativo promissor, Rudovic diz, são interações humano-robótica, como para robótica pessoal ou robôs usados ​​para fins educacionais, onde os robôs precisam se adaptar para avaliar os estados emocionais de muitas pessoas diferentes. Uma versão, por exemplo, tem sido usado para ajudar robôs a interpretar melhor o humor de crianças com autismo.

    Roddy Cowie, professor emérito de psicologia na Queen's University Belfast e um estudioso de computação afetiva, diz que o trabalho do MIT "ilustra onde realmente estamos" no campo. "Estamos avançando em direção a sistemas que podem localizar, a partir de fotos de rostos de pessoas, onde eles se encontram em escalas de muito positivo a muito negativo, e muito ativo para muito passivo, ", diz ele." Parece intuitivo que os sinais emocionais de uma pessoa não são os mesmos que os sinais de outra, e, portanto, faz muito sentido que o reconhecimento de emoções funcione melhor quando personalizado. O método de personalização reflete outro ponto intrigante, que é mais eficaz treinar vários 'especialistas, 'e agregar seus julgamentos, do que treinar um único super-especialista. Os dois juntos formam um pacote satisfatório. "

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com