Ilustração da arquitetura Semi3-Net. Crédito:Lei et al.
Nos últimos anos, pesquisadores têm desenvolvido técnicas computacionais cada vez mais avançadas, como algoritmos de aprendizado profundo, para completar uma variedade de tarefas. Uma tarefa que eles têm tentado abordar é conhecida como "recuperação de imagem baseada em esboço" (SBIR).
As tarefas SBIR envolvem a recuperação de imagens de um determinado objeto ou conceito visual em uma ampla coleção ou banco de dados com base em esboços feitos por usuários humanos. Para automatizar esta tarefa, pesquisadores têm tentado desenvolver ferramentas que possam analisar esboços humanos e identificar imagens que estejam relacionadas ao esboço ou contenham o mesmo objeto.
Apesar dos resultados promissores alcançados por algumas dessas ferramentas, desenvolver técnicas que executam consistentemente bem em tarefas SBIR provou ser um desafio até agora. Isso se deve principalmente às diferenças visuais gritantes entre esboços abstratos e imagens reais. Por exemplo, esboços feitos por humanos são frequentemente deformados e abstratos, o que os torna mais difíceis de se relacionar com objetos em imagens reais.
Para superar este desafio, pesquisadores da Universidade de Tianjin e da Universidade de Correios e Telecomunicações de Pequim, na China, desenvolveram recentemente uma arquitetura baseada em rede neural que aprende representações de recursos de domínio cruzado discriminativas para tarefas de recuperação de imagem baseada em esboço (SBIR). A técnica que eles criaram, apresentado em um artigo pré-publicado no arXiv, combina uma variedade de técnicas computacionais, incluindo mapeamento de recursos semi-heterogêneos, incorporação semântica conjunta e modelos de co-atenção.
"O insight principal está em como cultivamos as relações mútuas e sutis entre os esboços, imagens naturais e mapas de borda, "os pesquisadores escreveram em seu artigo." O mapeamento de recursos semi-heterogêneos é projetado para extrair recursos de fundo de cada domínio, onde os ramos de esboço e mapa de borda são compartilhados, enquanto o ramo natural da imagem é heterogêneo para outros ramos. "
O modelo desenhado pelos pesquisadores é uma rede semi-heterogênea de incorporação conjunta de três vias (Semi3-Net). Além do mapeamento semi-heterogêneo, ele usa uma técnica conhecida como incorporação semântica conjunta. A incorporação semântica permite que a rede incorpore recursos de diferentes domínios (por exemplo, de esboços ou fotografias) em um espaço semântico comum de alto nível. Semi3-Net também incorpora um modelo de co-atenção, que é projetado para recalibrar recursos extraídos de dois domínios diferentes.
Finalmente, os pesquisadores desenvolveram um mecanismo de perda híbrida que pode calcular a correlação entre os esboços, mapas de borda e imagens naturais. Este mecanismo permite que o modelo Semi3-Net aprenda representações que são invariáveis entre os dois domínios (ou seja, esboços e imagens tiradas com câmeras).
Os pesquisadores treinaram e avaliaram o Semi3-Net em dados de Sketchy e TU-Berlin Extension, dois conjuntos de dados amplamente utilizados em estudos com foco em tarefas de SBIR. O banco de dados Sketchy contém 75, 471 esboços e 12, 500 imagens naturais, enquanto a extensão TU-Berlin contém 204, 489 imagens naturais e 20, 000 esboços desenhados à mão.
Até aqui, Semi3-Net teve um desempenho notável em todos os experimentos conduzidos pelos pesquisadores, superando outros modelos de última geração para SBIR. A equipe agora planeja continuar trabalhando no modelo e aprimorar ainda mais seu desempenho, talvez até adaptando-o para lidar com outros problemas que exigem a conexão de dados de diferentes domínios.
"No futuro, vamos nos concentrar em estender a rede de domínio cruzado proposta para a recuperação de imagens de baixa granularidade e aprender a correspondência dos detalhes de granulação fina para pares de esboço-imagem, "escreveram os pesquisadores em seu artigo.
© 2019 Science X Network