Ensinar inteligência artificial para criar recursos visuais com mais bom senso

O sistema GANpaint desenvolvido no MIT pode facilmente adicionar recursos a uma imagem existente. À esquerda, a foto original de uma cozinha; à direita, a mesma cozinha com a adição de uma janela. O co-autor Jun-Yan Zhu acredita que uma melhor compreensão dos GANs ajudará os pesquisadores a eliminar melhor a falsidade:“Essa compreensão pode nos ajudar a detectar imagens falsas com mais facilidade”. Crédito:Massachusetts Institute of Technology

Os smartphones de hoje costumam usar inteligência artificial (IA) para ajudar a tornar as fotos que tiramos mais nítidas e claras. Mas e se essas ferramentas de IA pudessem ser usadas para criar cenas inteiras do zero?

Uma equipe do MIT e da IBM fez exatamente isso com o "GANpaint Studio, "um sistema que pode gerar automaticamente imagens fotográficas realistas e editar objetos dentro delas. Além de ajudar artistas e designers a fazer ajustes visuais rapidamente, os pesquisadores dizem que o trabalho pode ajudar os cientistas da computação a identificar imagens "falsas".

David Bau, um Ph.D. estudante do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL), descreve o projeto como uma das primeiras vezes que cientistas da computação foram capazes de realmente "pintar com os neurônios" de uma rede neural - especificamente, um tipo popular de rede chamada rede adversarial gerativa (GAN).

Disponível online como uma demonstração interativa, O GANpaint Studio permite que um usuário carregue uma imagem de sua escolha e modifique vários aspectos de sua aparência, desde alterar o tamanho dos objetos até adicionar itens completamente novos, como árvores e edifícios.

Boon para designers

Liderado pelo professor do MIT Antonio Torralba como parte do MIT-IBM Watson AI Lab que ele dirige, o projeto tem um vasto potencial de aplicações. Designers e artistas poderiam usá-lo para fazer ajustes mais rápidos em seus visuais. Adaptar o sistema aos videoclipes permitiria aos editores de computação gráfica compor rapidamente arranjos específicos de objetos necessários para uma determinada tomada. (Imagine, por exemplo, se um diretor filmou uma cena completa com atores, mas se esqueceu de incluir um objeto no fundo que é importante para a trama.)

O GANpaint Studio também pode ser usado para melhorar e depurar outros GANs que estão sendo desenvolvidos, analisando-os em busca de unidades de "artefato" que precisam ser removidas. Em um mundo onde ferramentas opacas de IA tornaram a manipulação de imagens mais fácil do que nunca, poderia ajudar os pesquisadores a entender melhor as redes neurais e suas estruturas subjacentes.

"Agora mesmo, sistemas de aprendizado de máquina são essas caixas pretas que nem sempre sabemos como melhorar, como aqueles aparelhos de TV antigos que você tem que consertar batendo neles de lado, "diz Bau, autor principal em um artigo relacionado sobre o sistema com uma equipe supervisionada por Torralba. "Esta pesquisa sugere que, embora possa ser assustador abrir a TV e dar uma olhada em todos os fios, vai haver muitas informações significativas lá. "

Uma descoberta inesperada é que o sistema realmente parece ter aprendido algumas regras simples sobre as relações entre os objetos. De alguma forma, ele sabe que não deve colocar algo em algum lugar ao qual não pertence, como uma janela no céu, e também cria visuais diferentes em contextos diferentes. Por exemplo, se houver dois edifícios diferentes em uma imagem e o sistema for solicitado a adicionar portas a ambos, ele não adiciona simplesmente portas idênticas - elas podem, em última análise, parecer muito diferentes umas das outras.

"Todos os aplicativos de desenho seguirão as instruções do usuário, mas o nosso pode decidir não desenhar nada se o usuário comandar para colocar um objeto em um local impossível, "diz Torralba." É uma ferramenta de desenho com uma personalidade forte, e abre uma janela que nos permite entender como os GANs aprendem a representar o mundo visual. "

GANs são conjuntos de redes neurais desenvolvidas para competir entre si. Nesse caso, uma rede é um gerador focado na criação de imagens realistas, e o segundo é um discriminador cujo objetivo é não se deixar enganar pelo gerador. Cada vez que o discriminador 'pega' o gerador, tem que expor o raciocínio interno da decisão, o que permite que o gerador melhore continuamente.

"É realmente impressionante ver como esse trabalho nos permite ver diretamente que os GANs realmente aprendem algo que está começando a parecer um pouco com bom senso, "diz Jaakko Lehtinen, um professor associado da Universidade Aalto da Finlândia que não estava envolvido no projeto. "Eu vejo essa habilidade como um ponto de partida crucial para ter sistemas autônomos que podem realmente funcionar no mundo humano, que é infinito, complexo e em constante mudança. "

Eliminando imagens "falsas" indesejadas

O objetivo da equipe é dar às pessoas mais controle sobre as redes GAN. Mas eles reconhecem que com maior poder vem o potencial para abuso, como usar essas tecnologias para corrigir fotos. O co-autor Jun-Yan Zhu diz acreditar que entender melhor os GANs - e os tipos de erros que eles cometem - ajudará os pesquisadores a erradicar melhor a falsificação.

"Você precisa conhecer seu oponente antes de se defender contra ele, "diz Zhu, um pós-doutorado em CSAIL. "Esse entendimento pode nos ajudar a detectar imagens falsas com mais facilidade."

Para desenvolver o sistema, a equipe primeiro identificou unidades dentro do GAN que se correlacionam com tipos específicos de objetos, como árvores. Em seguida, testou essas unidades individualmente para ver se se livrar delas faria com que certos objetos desaparecessem ou aparecessem. Mais importante, eles também identificaram as unidades que causam erros visuais (artefatos) e trabalharam para removê-los para aumentar a qualidade geral da imagem.

"Sempre que GANs geram imagens terrivelmente irrealistas, a causa desses erros era anteriormente um mistério, "diz o co-autor Hendrik Strobelt, um cientista pesquisador da IBM. "Descobrimos que esses erros são desencadeados por conjuntos específicos de neurônios que podemos silenciar para melhorar a qualidade da imagem."

Bau, Strobelt, Torralba e Zhu co-escreveram o artigo com o ex-CSAIL Ph.D. estudante Bolei Zhou, associado de pós-doutorado Jonas Wulff, e o estudante de graduação William Peebles. Eles irão apresentá-lo no próximo mês na conferência SIGGRAPH em Los Angeles. "Este sistema abre uma porta para uma melhor compreensão dos modelos GAN, e isso vai nos ajudar a fazer qualquer tipo de pesquisa que precisamos fazer com GANs, "diz Lehtinen.

Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.

Óculos inteligentes seguem nossos olhos, focar automaticamente

A resposta para a previsão do Bitcoin pode estar na inteligência artificial

Eletrônicos