Crédito CC0:domínio público
Pesquisadores da Carnegie Mellon University desenvolveram um modelo de computador que pode traduzir textos que descrevem movimentos físicos diretamente em animações simples geradas por computador, um primeiro passo para algum dia gerar filmes diretamente de scripts.
Os cientistas deram um salto tremendo para fazer com que os computadores entendessem a linguagem natural, bem como na geração de uma série de poses físicas para criar animações realistas. Esses recursos também podem existir em mundos separados, Contudo, porque a ligação entre a linguagem natural e as poses físicas está faltando.
Louis-Philippe Morency, professor associado do Language Technologies Institute (LTI), e Chaitanya Ahuja, um LTI Ph.D. aluna, estão trabalhando para reunir esses mundos usando uma arquitetura neural que eles chamam de Joint Language-to-Pose, ou JL2P. O modelo JL2P permite que sentenças e movimentos físicos sejam incorporados em conjunto, para que ele possa aprender como a linguagem está relacionada à ação, gestos e movimentos.
"Acho que estamos em um estágio inicial desta pesquisa, mas de uma modelagem, inteligência artificial e perspectiva teórica, é um momento muito emocionante, "Morency disse." Agora, estamos falando sobre animação de personagens virtuais. Eventualmente, esta ligação entre linguagem e gestos pode ser aplicada a robôs; podemos simplesmente dizer a um robô assistente pessoal o que queremos que ele faça.
"Nós também poderíamos ir por outro caminho - usando esse link entre linguagem e animação para que um computador pudesse descrever o que está acontecendo em um vídeo, " ele adicionou.
Ahuja apresentará JL2P em 19 de setembro na Conferência Internacional sobre Visão 3-D na cidade de Quebec, Canadá.
Para criar JL2P, Ahuja usou uma abordagem de aprendizado de currículo que se concentra no modelo de aprendizado inicial, sequências fáceis - "Uma pessoa caminha para frente" - e depois mais, sequências mais difíceis - "Uma pessoa dá um passo à frente, então se vira e avança novamente, "ou" Uma pessoa pula um obstáculo enquanto corre. "
Verbos e advérbios descrevem a ação e velocidade / aceleração da ação, enquanto substantivos e adjetivos descrevem locais e direções. O objetivo final é animar sequências complexas com várias ações acontecendo simultaneamente ou em sequência, Ahuja disse.
Por enquanto, as animações são para bonecos de palito.
O que torna tudo mais complicado é o fato de que muitas coisas acontecem ao mesmo tempo, mesmo em sequências simples, Morency explicou.
"A sincronia entre as partes do corpo é muito importante, "Morency disse." Cada vez que você move as pernas, você também move seus braços, seu torso e possivelmente sua cabeça. As animações do corpo precisam coordenar esses diferentes componentes, enquanto ao mesmo tempo realizam ações complexas. Trazer a narrativa da linguagem dentro deste ambiente de animação complexo é desafiador e empolgante. Este é um caminho para uma melhor compreensão da fala e dos gestos. "