Transformando os sentidos em mídia:podemos ensinar inteligência artificial a perceber?
Crédito:Pixabay/CC0 Public Domain
Os seres humanos percebem o mundo através de diferentes sentidos:vemos, sentimos, ouvimos, saboreamos e cheiramos. Os diferentes sentidos com os quais percebemos são múltiplos canais de informação, também conhecidos como multimodais. Isso significa que o que percebemos pode ser visto como multimídia?
Xue Wang, Ph.D. Candidato ao LIACS, traduz percepção em multimídia e usa Inteligência Artificial (IA) para extrair informações de processos multimodais, semelhante à forma como o cérebro processa informações. Em sua pesquisa, ela testou processos de aprendizagem de IA de quatro maneiras diferentes.
Colocando palavras em vetores Primeiro, Xue examinou a aprendizagem embutida em palavras:a tradução de palavras em vetores. Um vetor é uma quantidade com duas propriedades, a saber, uma direção e uma magnitude. Especificamente, esta parte trata de como a classificação da informação pode ser melhorada. Xue propôs o uso de um novo modelo de IA que vincula palavras a imagens, facilitando a classificação de palavras. Ao testar o modelo, um observador pode interferir se a IA fizer algo errado. A pesquisa mostra que este modelo tem um desempenho melhor do que um modelo usado anteriormente.
Examinando subcategorias Um segundo foco da pesquisa são as imagens acompanhadas de outras informações. Para este tópico, Xue observou o potencial da rotulagem de subcategorias, também conhecida como rotulagem refinada. Ela usou um modelo específico de IA para facilitar a categorização de imagens com pouco texto ao redor. Ele mescla rótulos grosseiros, que são categorias gerais, com rótulos refinados, as subcategorias. A abordagem é eficaz e útil na estruturação de categorizações fáceis e difíceis.
Encontrando relações entre imagens e texto Em terceiro lugar, Xue pesquisou associação de imagem e texto. Um problema com este tópico é que a transformação desta informação não é linear, o que significa que pode ser difícil de medir. Xue encontrou uma solução potencial para esse problema:ela usou a transformação baseada em kernel. Kernel significa uma classe específica de algoritmos em aprendizado de máquina. Com o modelo utilizado, agora é possível para a IA ver a relação de significado entre imagens e texto.
Encontrando contraste em imagens e texto Por fim, Xue focou em imagens acompanhadas de texto. Nesta parte, a IA teve que observar os contrastes entre palavras e imagens. O modelo de IA realizou uma tarefa chamada aterramento de frase, que é a ligação de substantivos em legendas de imagens a partes da imagem. Não havia observador que pudesse interferir nessa tarefa. A pesquisa mostrou que a IA pode vincular regiões de imagem a substantivos com precisão média para esse campo de pesquisa.
A percepção da inteligência artificial Esta pesquisa oferece uma grande contribuição para o campo da informação multimídia:vemos que a IA pode classificar palavras, categorizar imagens e vincular imagens ao texto. Mais pesquisas podem fazer uso dos métodos propostos por Xue e esperamos levar a insights ainda melhores na percepção multimídia da IA.