• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Mestre do Atari:a nova IA supera o Google DeepMind no desafio de videogame

    Crédito CC0:domínio público

    Uma nova geração de algoritmos dominou os videogames Atari 10 vezes mais rápido do que a IA de última geração, com uma abordagem inovadora para a resolução de problemas.

    Projetar IA que pode negociar problemas de planejamento, especialmente aqueles em que as recompensas não são imediatamente óbvias, é um dos desafios de pesquisa mais importantes para o avanço do campo.

    Um famoso estudo de 2015 mostrou que o Google DeepMind AI aprendeu a jogar videogames Atari como Video Pinball em nível humano, mas notoriamente falhou em aprender um caminho para a primeira chave no videogame Montezuma's Revenge dos anos 1980 devido à complexidade do jogo.

    No novo método desenvolvido na RMIT University em Melbourne, Austrália, computadores configurados para jogar autonomamente Montezuma's Revenge aprenderam com os erros e identificaram sub-objetivos 10 vezes mais rápido do que o Google DeepMind para terminar o jogo.

    O professor associado Fabio Zambetta, da RMIT University, revela a nova abordagem nesta sexta-feira na 33ª Conferência AAAI sobre Inteligência Artificial nos Estados Unidos.

    O método, desenvolvido em colaboração com o professor John Thangarajah e Michael Dann da RMIT, combina a aprendizagem por reforço do tipo "cenoura e castigo" com uma abordagem de motivação intrínseca que recompensa a IA por ser curiosa e explorar seu ambiente.

    "A IA verdadeiramente inteligente precisa ser capaz de aprender a concluir tarefas de maneira autônoma em ambientes ambíguos, "Zambetta diz.

    "Mostramos que o tipo certo de algoritmo pode melhorar os resultados usando uma abordagem mais inteligente, em vez de forçar um problema de ponta a ponta em computadores muito poderosos.

    "Nossos resultados mostram o quanto estamos chegando mais perto da IA ​​autônoma e pode ser uma linha de investigação chave se quisermos continuar fazendo progressos substanciais neste campo."

    O método de Zambetta recompensa o sistema por explorar autonomamente sub-objetivos úteis, como 'subir aquela escada' ou 'pular aquele buraco', o que pode não ser óbvio para um computador, no contexto de completar uma missão maior.

    Outros sistemas de última geração exigiram informações humanas para identificar esses objetivos secundários ou então decidiram o que fazer em seguida aleatoriamente.

    "Nossos algoritmos não apenas identificaram tarefas relevantes de maneira autônoma cerca de 10 vezes mais rápido do que o Google DeepMind ao jogar Montezuma's Revenge, eles também exibiram um comportamento relativamente semelhante ao humano ao fazê-lo, "Zambetta diz.

    "Por exemplo, antes de chegar à segunda tela do jogo, você precisa identificar subtarefas, como subir escadas, pulando sobre um inimigo e finalmente pegando uma chave, aproximadamente nessa ordem.

    "Isso eventualmente aconteceria aleatoriamente após um longo período de tempo, mas acontecer tão naturalmente em nossos testes mostra algum tipo de intenção.

    "Isso torna o nosso o primeiro agente totalmente autônomo orientado a subobjetivos a ser verdadeiramente competitivo com agentes de última geração nesses jogos."

    Zambetta disse que o sistema funcionaria fora dos videogames em uma ampla gama de tarefas, quando fornecido com entradas visuais brutas.

    "Criar um algoritmo que complete os videogames pode parecer trivial, mas o fato de termos projetado um que pode lidar com a ambigüidade ao escolher entre um número arbitrário de ações possíveis é um avanço crítico.

    "Significa que, com tempo, esta tecnologia será valiosa para atingir objetivos no mundo real, seja em carros autônomos ou como assistentes robóticos úteis com reconhecimento de linguagem natural, " ele diz.

    Derivar subobjetivos de forma autônoma para acelerar a aprendizagem em domínios de recompensa esparsos (em anexo) será apresentado na 33ª Conferência AAAI sobre Inteligência Artificial em Honolulu, Havaí em 1º de fevereiro de 2019.


    © Ciência https://pt.scienceaq.com