Dada uma nova descrição, O Craft compõe sequencialmente um layout de cena e recupera entidades de um banco de dados de vídeo para criar vídeos de cena complexos. Crédito:arXiv:1804.03608 [cs.CV]
E se você dissesse que você pode criar desenhos apenas trabalhando em descrições de texto?
Os relatórios são de que um grupo de pesquisadores revelou uma IA capaz de fazer vídeos originais de "Os Flintstones" a partir de descrições de texto.
Sim, essas são cenas criadas por uma inteligência artificial. Considere algumas descrições de cena:Fred está usando um chapéu azul e conversando com Wilma na sala de estar. Wilma então se senta em um sofá.
Composição, Rede de recuperação e fusão, ou CRAFT, é o nome de seu modelo. Os autores notaram que mostraram CRAFT em Flintstones, um conjunto de dados com mais de 2, 500 vídeos e cada um com 75 quadros.
Eles escreveram um artigo, intitulado "Imagine isto! Scripts para composições para vídeos" e está no arXiv. Os cinco pesquisadores são Tanmay Gupta, Dustin Schwenk, Ali Farhadi, Derek Hoiem e Aniruddha Kembhavi. As afiliações dos autores incluem The Allen Institute for Artificial Intelligence (AI2), A Universidade de Illinois Urbana-Champaign e a Universidade de Washington.
Os autores disseram que, uma vez que receba uma nova descrição, "Craft compõe sequencialmente um layout de cena e recupera entidades de um banco de dados de vídeo para criar vídeos de cena complexos."
Tristan Greene, The Next Web , explicou como a tecnologia funciona:"Craft usa as anotações de vídeos para determinar como as imagens originais correspondem às palavras usadas para descrevê-las. Eventualmente, ele cria um conjunto de parâmetros que permite 'entender' o que torna os personagens e objetos individuais o desenho corresponde às suas contrapartes em linguagem simples. Depois de entender essa relação, é capaz de gerar videoclipes com base em novas entradas de texto que se parecem muito com o desenho animado em que foi treinado. "
Os autores também discutiram seu modelo com base no texto:
"Ao contrário das abordagens de geração de pixels, nosso modelo de aparência é baseado em texto para recuperação de segmento de entidade de um banco de dados de vídeo. Os segmentos espaço-temporais são extraídos dos vídeos recuperados e fundidos para gerar o vídeo final. A composição do layout e a recuperação da entidade funcionam de maneira sequencial, determinada pela entrada de idioma. "
Os autores afirmaram que "CRAFT supera as abordagens de geração direta de pixels."
Interessantemente, os espectadores do vídeo escreveram respostas que variam de wow a morno a confuso.
Vários acharam isso incrível; um comentou que era "mais avançado do que eu teria imaginado" e outro disse "ainda parece que alguém tentou animar pela primeira vez em um software de demonstração. Parece que tem potencial, no entanto."
Outro observador ficou mais confuso do que surpreso. "Estou confuso. Meu entendimento é que a IA aprendeu 25k desenhos animados totalmente anotados. E então os pesquisadores digitaram em um cenário de texto, e a IA acabou de encontrar imagens correspondentes? Isso não é apenas uma recuperação simples do trecho de vídeo correspondente com base em uma pesquisa de texto do banco de dados anotado? O que estou perdendo?"
Escritores em sites de tecnologia ofereceram sua perspectiva sobre essa pesquisa. Referindo-se aos vídeos, The Next Web interveio. OK, é um "clipzinho problemático, "como disse Tristan Greene. ele adicionou, "O pequeno clipe de hoje, gerado a partir de frases de texto simples, pode levar ao entretenimento de amanhã a ser criado do zero por IA, em vez de estúdios cheios de gente. "
Andrew Liszewski em Gizmodo da mesma forma, descobri que a qualidade das animações geradas era "terrível, na melhor das hipóteses" e "ninguém vai se enganar pensando que são originais de Hanna-Barbera". Apesar disso, ele adicionou, ver uma IA gerar um desenho animado, com personagens icônicos, sozinho, foi "uma espiada fascinante de como alguns filmes e programas de TV podem ser feitos um dia".
Lucy Black escreveu no domingo, no Eu programador que "Isso é mais do que apenas outro truque inteligente com redes neurais. É um sinal de que a IA está se movendo em direção a sistemas maiores, onde redes neurais profundas realizam trabalhos diferentes e trabalham juntas para criar a solução. Você poderia chamá-lo de segundo estágio de neural profundo redes. "
OK, pergunta não respondida:os animadores perderiam seus empregos. Black disse, "Sim, suponho que, com tempo e esforço, algo como CRAFT poderia ser desenvolvido em um gerador de desenhos animados e tirar milhares de animadores do trabalho, mas a computação gráfica já está desbastando esse mercado de trabalho. "
© 2018 Tech Xplore