DeepRole, um bot de jogos inventado pelo MIT equipado com "raciocínio dedutivo, ”Pode vencer jogadores humanos em jogos multiplayer online complicados, onde as funções e os motivos dos jogadores são mantidos em segredo. Crédito:Massachusetts Institute of Technology
Os pesquisadores do MIT desenvolveram um bot equipado com inteligência artificial que pode vencer jogadores humanos em jogos multiplayer online complicados, onde as funções e os motivos dos jogadores são mantidos em segredo.
Muitos bots de jogos foram construídos para acompanhar jogadores humanos. No início deste ano, uma equipe da Carnegie Mellon University desenvolveu o primeiro bot do mundo capaz de vencer profissionais no pôquer multijogador. O AlphaGo da DeepMind foi manchete em 2016 por superar um jogador profissional de Go. Vários bots também foram criados para derrotar jogadores de xadrez profissionais ou unir forças em jogos cooperativos, como o capture a bandeira online. Nestes jogos, Contudo, o bot conhece seus oponentes e companheiros de equipe desde o início.
Na Conferência sobre Sistemas de Processamento de Informação Neural no próximo mês, os pesquisadores apresentarão DeepRole, o primeiro bot de jogos que pode ganhar jogos multiplayer online nos quais a lealdade da equipe dos participantes é inicialmente incerta. O bot é projetado com um novo "raciocínio dedutivo" adicionado a um algoritmo de IA comumente usado para jogar pôquer. Isso o ajuda a raciocinar sobre ações parcialmente observáveis, para determinar a probabilidade de um determinado jogador ser um companheiro de equipe ou adversário. Ao fazer isso, ele aprende rapidamente com quem se aliar e quais ações tomar para garantir a vitória de sua equipe.
Os pesquisadores colocaram o DeepRole contra jogadores humanos em mais de 4, 000 rodadas do jogo online "The Resistance:Avalon." Neste jogo, os jogadores tentam deduzir os papéis secretos de seus colegas conforme o jogo avança, enquanto, simultaneamente, escondem seus próprios papéis. Como companheiro de equipe e oponente, O DeepRole superou consistentemente os jogadores humanos.
"Se você substituir um companheiro de equipe humano por um bot, você pode esperar uma taxa de vitórias maior para sua equipe. Bots são melhores parceiros, "diz o primeiro autor Jack Serrino '18, que se formou em engenharia elétrica e ciência da computação no MIT e é um ávido jogador online de "Avalon".
O trabalho faz parte de um projeto mais amplo para modelar melhor como os humanos tomam decisões socialmente informadas. Isso pode ajudar a construir robôs que entendem melhor, aprender de, e trabalhar com humanos.
"Os humanos aprendem e cooperam com os outros, e isso nos permite alcançar coisas que nenhum de nós pode alcançar sozinho, "diz o co-autor Max Kleiman-Weiner, um pós-doutorado no Center for Brains, Mentes e Máquinas e o Departamento de Cérebro e Ciências Cognitivas do MIT, e na Universidade de Harvard. "Jogos como" Avalon 'imitam melhor os ambientes sociais dinâmicos que os humanos vivenciam na vida cotidiana. Você tem que descobrir quem está em sua equipe e trabalhará com você, seja seu primeiro dia de jardim de infância ou outro dia em seu escritório. "
Se juntando a Serrino e Kleiman-Weiner no papel estão David C. Parkes de Harvard e Joshua B. Tenenbaum, professor de ciência cognitiva computacional e membro do Laboratório de Ciência da Computação e Inteligência Artificial do MIT e do Center for Brains, Mentes e máquinas.
Bot dedutivo
Em "Avalon, "três jogadores são aleatoriamente e secretamente atribuídos a uma equipe de" resistência "e dois jogadores a uma equipe" espiã ". Ambos os jogadores espiões sabem as funções de todos os jogadores. Durante cada rodada, um jogador propõe um subconjunto de dois ou três jogadores para executar uma missão. Todos os jogadores simultânea e publicamente votam para aprovar ou desaprovar o subconjunto. Se a maioria aprovar, o subconjunto determina secretamente se a missão terá sucesso ou falhará. Se dois "bem-sucedidos" forem escolhidos, a missão é bem-sucedida; se uma "falha" for selecionada, a missão falha. Os jogadores da Resistência devem sempre escolher ter sucesso, mas os jogadores espiões podem escolher qualquer um dos resultados. A equipe de resistência vence após três missões bem-sucedidas; a equipe de espionagem vence após três missões fracassadas.
Vencer o jogo basicamente se resume a deduzir quem é a resistência ou espião, e votar em seus colaboradores. Mas isso é, na verdade, mais complexo computacionalmente do que jogar xadrez e pôquer. "É um jogo de informações imperfeitas, "Kleiman-Weiner diz." Você nem tem certeza de contra quem está começando, portanto, há uma fase de descoberta adicional para descobrir com quem cooperar. "
DeepRole usa um algoritmo de planejamento de jogo chamado "minimização do arrependimento contrafactual" (CFR) - que aprende a jogar jogando repetidamente contra si mesmo - acrescido de raciocínio dedutivo. Em cada ponto do jogo, O CFR procura criar uma "árvore de jogo" de decisões de linhas e nós que descrevem as ações futuras potenciais de cada jogador. As árvores do jogo representam todas as ações possíveis (linhas) que cada jogador pode realizar em cada ponto de decisão futuro. Ao jogar potencialmente bilhões de simulações de jogos, O CFR observa quais ações aumentaram ou diminuíram suas chances de vitória, e revisa iterativamente sua estratégia para incluir mais decisões acertadas. Eventualmente, ele planeja uma estratégia ideal que, na pior das hipóteses, empates contra qualquer oponente.
CFR funciona bem para jogos como pôquer, com ações públicas - como apostar dinheiro e desistir de uma mão - mas tem dificuldades quando as ações são secretas. O CFR dos pesquisadores combina ações públicas e consequências de ações privadas para determinar se os jogadores são resistência ou espionagem.
O bot é treinado jogando contra si mesmo como resistência e espião. Ao jogar um jogo online, ele usa sua árvore de jogo para estimar o que cada jogador fará. A árvore do jogo representa uma estratégia que dá a cada jogador a maior probabilidade de vencer conforme uma função atribuída. Os nós da árvore contêm "valores contrafatuais, "que são basicamente estimativas de um retorno que o jogador recebe se jogar aquela estratégia.
Em cada missão, o bot analisa como cada pessoa jogou em comparação com a árvore do jogo. Se, ao longo do jogo, um jogador toma decisões suficientes que são inconsistentes com as expectativas do bot, então o jogador provavelmente está desempenhando o outro papel. Eventualmente, o bot atribui uma alta probabilidade para o papel de cada jogador. Essas probabilidades são usadas para atualizar a estratégia do bot para aumentar suas chances de vitória.
Simultaneamente, ele usa essa mesma técnica para estimar como um observador de terceira pessoa pode interpretar suas próprias ações. Isso ajuda a estimar como outros jogadores podem reagir, ajudando-o a tomar decisões mais inteligentes. "Se for em uma missão de dois jogadores que falha, os outros jogadores sabem que um jogador é um espião. O bot provavelmente não proporá a mesma equipe em missões futuras, já que sabe que os outros jogadores pensam que é ruim, "Serrino diz.
Idioma:a próxima fronteira
Interessantemente, o bot não precisava se comunicar com outros jogadores, que geralmente é um componente chave do jogo. "Avalon" permite que os jogadores conversem em um módulo de texto durante o jogo. "Mas acontece que nosso bot foi capaz de trabalhar bem com uma equipe de outros humanos enquanto apenas observava as ações do jogador, "Kleiman-Weiner diz." Isso é interessante, porque se pode pensar que jogos como este requerem estratégias de comunicação complicadas. "
Próximo, os pesquisadores podem permitir que o bot se comunique durante os jogos com texto simples, como dizer que um jogador é bom ou ruim. Isso envolveria atribuir texto à probabilidade correlacionada de que um jogador seja da resistência ou espião, que o bot já usa para tomar suas decisões. Além disso, um futuro bot pode ser equipado com recursos de comunicação mais complexos, permitindo que ele jogue jogos de dedução social com linguagem pesada - como o popular jogo "Lobisomem" - que envolvem vários minutos de discussão e persuadir outros jogadores sobre quem está nos times bons e ruins.
"A linguagem é definitivamente a próxima fronteira, "Serrino diz." Mas há muitos desafios para atacar nesses jogos, onde a comunicação é tão importante. "
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.