Uma estrutura de raciocínio multigranularidade para o reconhecimento de relações sociais

Como reconhecemos duas pessoas são familiares ou estranhos de uma imagem? As cenas, aparência de pessoas, e as interações entre pessoas e objetos contextuais são pistas significativas para o reconhecimento. Crédito:Zhang et al.

Uma equipe de pesquisadores da Universidade de Pequim e da JD AI Research desenvolveu recentemente uma estrutura de raciocínio de granularidade múltipla para o reconhecimento de relações sociais. Sua estrutura, descrito em um artigo pré-publicado no arXiv, foi treinado para analisar imagens de pessoas em diferentes cenas e prever a relação social entre elas.

Inferir com eficácia as relações sociais entre as pessoas pode ajudar os agentes inteligentes a compreender melhor os comportamentos e emoções humanas. O reconhecimento da relação social com base na imagem envolve a capacidade de classificar a relação entre pares de pessoas em uma imagem em tipos de relação predefinidos, como amigos, família, conhecidos, estranhos, etc.

Ferramentas de reconhecimento de relações sociais baseadas em imagens podem ter uma variedade de aplicações úteis, por exemplo, na coleta de imagens pessoais, mineração e compreensão de eventos sociais. Avanços recentes na aprendizagem profunda abriram novas possibilidades para o reconhecimento das relações sociais, levando a melhorias significativas no desempenho.

Apesar disso, reconhecer automaticamente as relações sociais em imagens tem se mostrado desafiador, particularmente devido à lacuna substancial entre os domínios do conteúdo visual e das relações sociais. A maioria das abordagens existentes funciona processando separadamente recursos, como expressões faciais, aparência do corpo e pistas contextuais.

"Os métodos existentes para reconhecimento de relações sociais geralmente utilizam recursos visuais de baixo nível, como a aparência de pessoas, atributos de rosto e objetos contextuais, "os pesquisadores escreveram em seu artigo." Embora algumas abordagens explorem as relações entre pessoas e objetos, eles consideram apenas a coexistência em uma imagem. Contudo, apenas dependendo da representação de granularidade única dificilmente pode superar a lacuna de domínio entre as características visuais e as relações sociais. "

Uma visão geral da estrutura de raciocínio de multigranularidade. Crédito:Zhang et al.

Ao analisar os recursos individualmente, os métodos de reconhecimento de relações sociais existentes normalmente falham em capturar a semântica de granularidade múltipla, como cenas gerais ou onde as pessoas estão localizadas em uma imagem, bem como interações entre pessoas e objetos. Para lidar com essas limitações, a equipe de pesquisadores da Universidade de Pequim e da JD AI Research desenvolveu uma estrutura de raciocínio de granularidade múltipla para o reconhecimento de relações sociais em imagens.

Sua estrutura adquire conhecimento global de toda a cena e detalhes de nível médio das regiões em que pessoas e objetos estão localizados em uma imagem. Ele também explora os pontos-chave da pose de granularidade fina de pessoas para descobrir interações entre pessoas e objetos.

"Especificamente, o gráfico de pessoa-objeto guiado por pose e o gráfico de pessoa-pose são propostos para modelar as ações de pessoas para objetos e as interações entre pares de pessoas, respectivamente, "os pesquisadores explicaram em seu artigo." Com base nesses gráficos, o raciocínio das relações sociais é realizado por redes convolucionais de grafo. Finalmente, as características globais e o conhecimento racional são integrados como uma representação abrangente para o reconhecimento da relação social. "

Os pesquisadores avaliaram seu modelo em dois conjuntos de dados de relações sociais em grande escala, nomeadamente os conjuntos de dados People in Social Context (PISC) e People in Photo Album (PIPA). O conjunto de dados PISC contém imagens de relações sociais comuns na vida diária, enquanto o conjunto de dados PIPA contém imagens anotadas com base na teoria do domínio social, que divide a vida social em cinco domínios e 16 relações diferentes. Nestes testes, seu modelo alcançou resultados notáveis, superando uma variedade de métodos de última geração.

Apesar desses resultados encorajadores, desenvolver ferramentas para reconhecer as relações sociais continua sendo um grande desafio, particularmente quando se trata de relações íntimas, como aqueles entre amigos, famílias ou casais, que pode ser difícil de discernir para os visualizadores humanos, também. No futuro, os pesquisadores planejam explorar novas maneiras de descobrir pistas de contexto em imagens e superar os desafios associados à falta de dados disponíveis para alguns tipos de relações sociais.

Primeiro desafio para os novos chefes de Renaults:pagamento de Ghosns

AlphaStar querendo dominar o mundo nas lutas de StarCraft II

Eletrônicos