Crédito CC0:domínio público
Acadêmicos da Escola Superior de Economia desenvolveram um algoritmo que detecta emoções em um grupo de pessoas em um vídeo de baixa qualidade. A solução fornece uma decisão final em apenas um centésimo de segundo, que é mais rápido do que qualquer outro algoritmo existente com precisão semelhante. Os resultados foram descritos no artigo 'Reconhecimento da emoção de um grupo de pessoas em análise de vídeo usando embeddings de imagens profundas'.
Analisar o comportamento social das pessoas com o uso de imagens e vídeos é uma das tarefas mais populares para desenvolvedores de interfaces inteligentes homem-máquina. Os pesquisadores alcançaram uma qualidade bastante alta no reconhecimento de emoções em nível de grupo, mas permaneceu impossível implementar este desenvolvimento em escala de massa. O problema era a exigência da maioria dos sistemas de vídeo para imagens contendo close-ups de rostos em boa resolução. Mas câmeras comuns instaladas na rua ou em um supermercado têm baixa resolução e são montadas bem altas, de modo que as regiões faciais típicas nos vídeos reunidos são muito pequenas.
Alexander Tarasov e Andrey Savchenko, pesquisadores de HSE, desenvolveram um algoritmo que é comparável às técnicas existentes de reconhecimento de emoções em nível de grupo em termos de precisão de reconhecimento (75,5%). Ao mesmo tempo, requer apenas 5 MB na memória do sistema, processa uma imagem ou quadro de vídeo em apenas um centésimo de segundo e pode ser usado com dados de vídeo de baixa qualidade.
O algoritmo funciona em várias etapas. Primeiro, a imagem é processada com rede neural MTCNN, que é tradicionalmente usado para detecção de rostos pequenos. Então, os recursos são extraídos de cada face com uma rede totalmente convolucional, que foi treinado preliminarmente para classificar emoções de rostos com resolução muito baixa, não maior do que uma foto de perfil nas redes sociais. A decisão final sobre a emoção (negativo, positivo ou neutro) de todo o grupo é feito por um conjunto de classificadores conhecidos (floresta aleatória e máquinas de vetores de suporte) aplicados à soma ponderada dos vetores de características de todas as faces detectadas.
O novo desenvolvimento pode ser potencialmente usado em vários sistemas de vigilância por vídeo. Pode ajudar a detectar mudanças nas emoções do grupo em um show, partida de futebol, ou um comício de protesto, o que pode ajudar na prevenção de conflitos em tempo hábil. Integrado em um sistema de vigilância de supermercado, ele detectará a reação emocional dos consumidores a várias promoções. Junto com câmeras que gravam um discurso público, pode avaliar a resposta do público.