O modelo é capaz de aprender recursos que codificam bem o conteúdo semântico das imagens. Dada uma consulta de imagem (imagem à esquerda), o modelo é capaz de recuperar imagens semanticamente semelhantes (retratam o mesmo tipo de objeto), embora possam ser visualmente diferentes (cores diferentes, fundos ou composições). Crédito:arXiv:1807.02110 [cs.CV]
Pesquisadores da Universitat Autonoma de Barcelona, Carnegie Mellon University e International Institute of Information Technology, Hyderabad, Índia, desenvolveram uma técnica que pode permitir que algoritmos de aprendizagem profunda aprendam as características visuais das imagens de forma autossupervisionada, sem a necessidade de anotações por pesquisadores humanos.
Para alcançar resultados notáveis em tarefas de visão computacional, algoritmos de aprendizado profundo precisam ser treinados em conjuntos de dados anotados em grande escala que incluem informações abrangentes sobre cada imagem. Contudo, coletar e anotar manualmente essas imagens requer muito tempo, Recursos, e esforço humano.
"Nosso objetivo é dar aos computadores a capacidade de ler e compreender informações textuais em qualquer tipo de imagem do mundo real, "diz Dimosthenis Karatzas, um dos pesquisadores que realizou o estudo, em uma entrevista com Tech Xplore .
Os humanos usam informações textuais para interpretar todas as situações apresentadas a eles, bem como para descrever o que está acontecendo ao seu redor ou em uma imagem particular. Os pesquisadores agora estão tentando dar recursos semelhantes às máquinas, pois isso reduziria enormemente a quantidade de recursos gastos na anotação de grandes conjuntos de dados.
Em seu estudo, Karatzas e seus colegas projetaram modelos computacionais que unem informações textuais sobre imagens com as informações visuais contidas nelas, usando dados da Wikipedia ou outras plataformas online. Em seguida, eles usaram esses modelos para treinar algoritmos de aprendizado profundo sobre como selecionar bons recursos visuais que descrevem imagens semanticamente.
Como em outros modelos baseados em redes neurais convolucionais (CNNs), recursos são aprendidos de ponta a ponta, com diferentes camadas aprendendo automaticamente a se concentrar em coisas diferentes, variando de detalhes de nível de pixel nas primeiras camadas a recursos mais abstratos nas últimas.
O modelo desenvolvido por Karatzas e seus colegas, Contudo, não requer anotações específicas para cada imagem. Em vez de, o contexto textual onde a imagem é encontrada (por exemplo, um artigo da Wikipedia) atua como o sinal de supervisão.
Em outras palavras, a nova técnica criada por esta equipe de pesquisadores fornece uma alternativa aos algoritmos totalmente não supervisionados, que usa elementos não visuais em correlação com as imagens, atuando como uma fonte de treinamento auto-supervisionado.
"Esta é uma forma muito eficiente de aprender a representar imagens em um computador, sem exigir quaisquer anotações explícitas - rótulos sobre o conteúdo das imagens - que levam muito tempo e esforço manual para serem geradas, "explica Karatzas." Essas novas representações de imagens, aprendeu de forma autossupervisionada, são discriminatórios o suficiente para serem usados em uma variedade de tarefas típicas de visão computacional, como classificação de imagens e detecção de objetos. "
A metodologia desenvolvida pelos pesquisadores permite o uso do texto como sinal de supervisão para aprender características úteis da imagem. Isso pode abrir novas possibilidades para o aprendizado profundo, permitindo que algoritmos aprendam recursos de imagem de boa qualidade sem a necessidade de anotações, simplesmente analisando fontes textuais e visuais que estão prontamente disponíveis online.
Ao treinar seus algoritmos usando imagens da internet, os pesquisadores destacaram o valor do conteúdo que está prontamente disponível online.
"Nosso estudo demonstrou que a Web pode ser explorada como um pool de dados barulhentos para aprender representações úteis sobre o conteúdo da imagem, "diz Karatzas." Não somos os primeiros, nem os únicos que apontavam nessa direção, mas nosso trabalho demonstrou uma maneira específica de fazer isso, fazendo uso de artigos da Wikipedia como dados para aprender. "
Em estudos futuros, Karatzas e seus colegas tentarão identificar as melhores maneiras de usar informações textuais incorporadas em imagens para descrever e responder automaticamente a perguntas sobre o conteúdo das imagens.
"Continuaremos nosso trabalho na incorporação conjunta de informações textuais e visuais, procurando novas maneiras de realizar a recuperação semântica tocando em informações barulhentas disponíveis na Web e nas mídias sociais, "acrescenta Karatzas.
© 2018 Tech Xplore