• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A rede de consulta de geração permite que o computador crie um modelo 3D de múltiplas visualizações a partir de fotografias 2-D
    p A interpretação de um artista do artigo de S.M. Ali Eslami et al., intitulado "Representação e renderização de cenas neurais". Crédito:DeepMind

    p Uma equipe de pesquisadores que trabalha com a divisão DeepMind do Google em Londres desenvolveu o que eles descrevem como uma Generation Query Network (GQN) - permite que um computador crie um modelo 3D de uma cena a partir de fotografias 2-D que podem ser vistas de diferentes ângulos. Em seu artigo publicado na revista Ciência , a equipe descreve o novo tipo de sistema de rede neural e o que ele representa. Eles também oferecem uma visão mais pessoal de seu projeto em uma postagem em seu site. Matthias Zwicker, with the University of Maryland oferece uma perspectiva sobre o trabalho realizado pela equipe na mesma edição da revista. p Na ciência da computação, grandes saltos na engenharia de sistemas podem parecer pequenos por causa da aparente simplicidade dos resultados - só quando alguém aplica os resultados é que o grande salto é verdadeiramente reconhecido. Este foi o caso, por exemplo, quando começaram a surgir os primeiros sistemas capazes de ouvir o que uma pessoa diz e extrair significado disso. Neste novo empreendimento, a equipe da DeepMind pode ter dado um salto semelhante.

    p Em aplicativos de computador tradicionais, incluindo redes de aprendizagem profunda, um computador deve receber dados coletados para se comportar como se tivesse aprendido alguma coisa. Esse não é o caso do GQN, que aprende puramente com a observação, como bebês humanos. O sistema pode observar uma cena do mundo real, como blocos sobre uma mesa, e então recriar um modelo capaz de mostrar a cena de outros ângulos. À primeira vista, como observa Zwicker, isso pode não parecer tão inovador. É somente quando se considera o que o sistema deve fazer para apresentar esses novos ângulos que o poder real do sistema se torna claro. Ele tem que olhar para a cena e inferir características dos objetos ocluídos que não podem ser observados usando apenas as informações 2-D fornecidas pelas câmeras. Não há radar ou localizador de profundidade, ou imagens de como os blocos devem ser armazenados em seus bancos de dados. Ele só precisa trabalhar com as poucas fotos que tira.

    p Conseguindo isso, a equipe explica, envolve o uso de duas redes neurais, um para analisar a cena, o outro para usar os dados resultantes para criar um modelo 3D que pode ser visto de ângulos não mostrados nas fotografias. Há muito mais trabalho a ser feito, claro, mais obviamente, determinar se ele pode ser ampliado para objetos mais complexos, mas em sua forma primitiva, claramente representa uma nova maneira de permitir que os computadores aprendam.

    Agente GQN “imaginando” novos pontos de vista em salas com vários objetos. Crédito:DeepMind
    Agente GQN operando em ambientes de labirinto parcialmente observados. Crédito:DeepMind
    Agente GQN executando a tarefa de rotação de objetos Shepard Metzler. Crédito:DeepMind
    p © 2018 Tech Xplore




    © Ciência https://pt.scienceaq.com