• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Afinal, A IA vence os profissionais no pôquer de seis jogadores

    Noam Brown é um cientista pesquisador de IA do Facebook enquanto conclui seu doutorado. na Carnegie Mellon. Crédito:Noam Brown

    Um programa de inteligência artificial desenvolvido pela Carnegie Mellon University em colaboração com o Facebook AI derrotou os principais profissionais do pôquer Texas Hold'em de seis jogadores no-limit, a forma de pôquer mais popular do mundo.

    O AI, chamado Pluribus, derrotou o profissional de pôquer Darren Elias, que detém o recorde da maioria dos títulos do World Poker Tour, e Chris "Jesus" Ferguson, vencedor de seis eventos da World Series of Poker. Cada profissional jogou 5 separadamente, 000 mãos de pôquer contra cinco cópias do Pluribus.

    Em outro experimento envolvendo 13 profissionais, todos os quais ganharam mais de $ 1 milhão jogando pôquer, Pluribus jogou cinco profissionais ao mesmo tempo para um total de 10, 000 mãos e novamente saiu vitorioso.

    "Pluribus alcançou um desempenho sobre-humano no pôquer multijogador, que é um marco reconhecido na inteligência artificial e na teoria dos jogos que está aberta há décadas, "disse Tuomas Sandholm, Angel Jordan Professor de Ciência da Computação, que desenvolveu Pluribus com Noam Brown, que está terminando seu doutorado no Departamento de Ciência da Computação da Carnegie Mellon como cientista pesquisador no Facebook AI. "Até agora, Os marcos sobre-humanos da IA ​​no raciocínio estratégico foram limitados à competição de duas partes. A capacidade de vencer cinco outros jogadores em um jogo tão complicado abre novas oportunidades para usar a IA para resolver uma ampla variedade de problemas do mundo real. "

    Um artigo de pesquisa descrevendo essa conquista em IA será publicado online pelo jornal Ciência na quinta feira, 11 de julho 2019.

    "Jogar um jogo de seis jogadores em vez de um frente a frente requer mudanças fundamentais na forma como a IA desenvolve sua estratégia de jogo, "disse Brown, que se juntou ao Facebook AI no ano passado. "Estamos entusiasmados com o seu desempenho e acreditamos que algumas das estratégias de jogo do Pluribus podem até mudar a forma como os profissionais jogam."

    Os algoritmos da Pluribus criaram alguns recursos surpreendentes em sua estratégia. Por exemplo, a maioria dos jogadores humanos evita "donk betting" - isto é, terminando uma rodada com um call, mas então começando a próxima rodada com uma aposta. É visto como um movimento fraco que geralmente não faz sentido estratégico. Mas a Pluribus fazia donk bets com muito mais frequência do que os profissionais que derrotou.

    "Seu principal ponto forte é a capacidade de usar estratégias mistas, "Elias disse na semana passada enquanto se preparava para o evento principal do World Series of Poker 2019." É a mesma coisa que os humanos tentam fazer. É uma questão de execução para os humanos - fazer isso de uma forma perfeitamente aleatória e consistente. A maioria das pessoas simplesmente não consegue. "

    Pluribus registrou uma vitória sólida com significância estatística, o que é particularmente impressionante devido à sua oposição, Elias disse. "O bot não estava apenas jogando contra alguns profissionais intermediários. Ele estava jogando contra alguns dos melhores jogadores do mundo."

    Michael "Gags" Gagliano, que ganhou quase $ 2 milhões em ganhos de carreira, também competiu contra Pluribus.

    "Foi incrivelmente fascinante jogar contra o bot de pôquer e ver algumas das estratégias que ele escolheu", disse Gagliano. "Existem várias peças que os humanos simplesmente não estão fazendo, especialmente em relação ao tamanho da aposta. Bots / IA são uma parte importante na evolução do pôquer, e foi incrível ter experiência em primeira mão neste grande passo em direção ao futuro. "

    Sandholm lidera uma equipe de pesquisa que estuda pôquer de computador há mais de 16 anos. Ele e Brown desenvolveram anteriormente o Libratus, que há dois anos venceu de forma decisiva quatro profissionais de pôquer jogando 120 combinados, 000 mãos de heads-up no-limit Texas hold'em, uma versão do jogo para dois jogadores.

    Jogos como xadrez e Go há muito servem como marcos para a pesquisa de IA. Nesses jogos, todos os jogadores conhecem o estado do tabuleiro e de todas as peças. Mas o pôquer é um desafio maior porque é um jogo de informação incompleta; os jogadores não podem ter certeza de quais cartas estão em jogo e os oponentes podem e irão blefar. Isso o torna um desafio de IA mais difícil e mais relevante para muitos problemas do mundo real envolvendo várias partes e informações ausentes.

    Todas as IAs que exibiram habilidades sobre-humanas em jogos para dois jogadores o fizeram aproximando-se do que é chamado de equilíbrio de Nash. Nomeado em homenagem ao ex-aluno do Carnegie Mellon e ganhador do Prêmio Nobel John Forbes Nash Jr., um equilíbrio de Nash é um par de estratégias (uma por jogador) onde nenhum jogador pode se beneficiar da mudança de estratégia, desde que a estratégia do outro jogador permaneça a mesma. Embora a estratégia do AI garanta apenas um resultado não pior do que um empate, a IA sai vitoriosa se seu oponente comete erros de cálculo e não consegue manter o equilíbrio.

    Em um jogo com mais de dois jogadores, jogar um equilíbrio de Nash pode ser uma estratégia perdedora. Portanto, Pluribus dispensa garantias teóricas de sucesso e desenvolve estratégias que, no entanto, permitem que ele derrote consistentemente os oponentes.

    Pluribus primeiro calcula uma estratégia de "projeto" jogando seis cópias de si mesmo, o que é suficiente para a primeira rodada de apostas. Daquele ponto em diante, Pluribus faz uma pesquisa mais detalhada de movimentos possíveis em uma abstração de jogo mais refinada. Ele antecipa vários movimentos enquanto o faz, mas não exigindo olhar para frente até o final do jogo, o que seria computacionalmente proibitivo. A pesquisa antecipada limitada é uma abordagem padrão em jogos de informação perfeita, mas é extremamente desafiador em jogos de informação imperfeita. Um novo algoritmo de busca com visão antecipada limitada é a principal descoberta que permitiu ao Pluribus alcançar o pôquer multijogador sobre-humano.

    Especificamente, a busca é uma solução de jogo de informação imperfeita de um subjogo de visão antecipada limitada. No final desse subjogo, a IA considera cinco estratégias de continuação possíveis que cada oponente e ele mesmo podem adotar para o resto do jogo. O número de estratégias de continuação possíveis é muito maior, mas os pesquisadores descobriram que seu algoritmo só precisa considerar cinco estratégias de continuação por jogador em cada folha para calcular um forte, estratégia geral equilibrada.

    Pluribus também busca ser imprevisível. Por exemplo, as apostas fariam sentido se a IA tivesse a melhor mão possível, mas se o AI aposta apenas quando tem a melhor mão, os oponentes perceberão rapidamente. Portanto, Pluribus calcula como agiria com cada mão possível que pudesse segurar e, em seguida, calcula uma estratégia que é equilibrada em todas essas possibilidades.

    Embora o pôquer seja um jogo incrivelmente complicado, Pluribus fez uso eficiente da computação. AIs que alcançaram marcos recentes em jogos usaram um grande número de servidores e / ou farms de GPUs; A Libratus usou cerca de 15 milhões de horas centrais para desenvolver suas estratégias e, durante o jogo ao vivo, usado 1, 400 núcleos de CPU. Pluribus calculou sua estratégia de projeto em oito dias usando apenas 12, 400 horas de núcleo e usado apenas 28 núcleos durante o jogo ao vivo.


    © Ciência https://pt.scienceaq.com