Novas pesquisas sugerem que treinar um modelo de inteligência artificial com colegas de equipe matematicamente "diversos" melhora sua capacidade de colaborar com outras IAs com as quais nunca trabalhou antes. Crédito:Bryan Mastergeorge
À medida que a inteligência artificial melhora a execução de tarefas que antes estavam exclusivamente nas mãos de humanos, como dirigir carros, muitos veem a inteligência em equipe como uma próxima fronteira. Neste futuro, humanos e IA são verdadeiros parceiros em trabalhos de alto risco, como realizar cirurgias complexas ou se defender de mísseis. Mas antes que a inteligência em equipe possa decolar, os pesquisadores devem superar um problema que corrói a cooperação:os humanos geralmente não gostam ou confiam em seus parceiros de IA.
Agora, novas pesquisas apontam a diversidade como um parâmetro chave para tornar a IA um melhor jogador de equipe.
Pesquisadores do MIT Lincoln Laboratory descobriram que treinar um modelo de IA com colegas de equipe matematicamente "diversos" melhora sua capacidade de colaborar com outra IA com a qual nunca trabalhou antes, no jogo de cartas Hanabi. Além disso, tanto o Facebook quanto o DeepMind do Google publicaram simultaneamente trabalhos independentes que também infundiram diversidade no treinamento para melhorar os resultados em jogos colaborativos de inteligência artificial humana.
Ao todo, os resultados podem apontar os pesquisadores para um caminho promissor para tornar a IA que pode ter um bom desempenho e ser vista como bons colaboradores por colegas de equipe humanos.
“O fato de todos convergirmos para a mesma ideia – que se você quer cooperar, precisa treinar em um ambiente diversificado – é emocionante e acredito que realmente prepara o cenário para o futuro trabalho em IA cooperativa”, diz Ross Allen, pesquisador do Grupo de Tecnologia de Inteligência Artificial do Laboratório Lincoln e coautor de um artigo detalhando este trabalho, que foi apresentado recentemente na Conferência Internacional sobre Agentes Autônomos e Sistemas Multiagentes.
Adaptação a diferentes comportamentos Para desenvolver IA cooperativa, muitos pesquisadores estão usando Hanabi como campo de testes. Hanabi desafia os jogadores a trabalharem juntos para empilhar cartas em ordem, mas os jogadores só podem ver as cartas de seus companheiros de equipe e só podem dar pistas esparsas uns aos outros sobre quais cartas eles possuem.
Em um experimento anterior, pesquisadores do Lincoln Laboratory testaram um dos modelos de IA Hanabi de melhor desempenho do mundo com humanos. Eles ficaram surpresos ao descobrir que os humanos não gostavam muito de brincar com esse modelo de IA, chamando-o de um companheiro de equipe confuso e imprevisível. “A conclusão foi que estamos perdendo algo sobre a preferência humana, e ainda não somos bons em fazer modelos que possam funcionar no mundo real”, diz Allen.
A equipe se perguntou se a IA cooperativa precisa ser treinada de maneira diferente. O tipo de IA que está sendo usado, chamado de aprendizado por reforço, tradicionalmente aprende como ter sucesso em tarefas complexas descobrindo quais ações geram a maior recompensa. Muitas vezes, é treinado e avaliado em modelos semelhantes a si mesmo. Esse processo criou jogadores de IA incomparáveis em jogos competitivos como Go e StarCraft.
Mas para que a IA seja um colaborador bem-sucedido, talvez seja necessário não apenas se preocupar em maximizar a recompensa ao colaborar com outros agentes de IA, mas também algo mais intrínseco:entender e se adaptar aos pontos fortes e às preferências dos outros. Em outras palavras, ela precisa aprender e se adaptar à diversidade.
Como você treina uma IA tão voltada para a diversidade? Os pesquisadores criaram o "Any-Play". Any-Play aumenta o processo de treinamento de um agente Hanabi de IA adicionando outro objetivo, além de maximizar a pontuação do jogo:a IA deve identificar corretamente o estilo de jogo de seu parceiro de treinamento.
Esse estilo de jogo é codificado no parceiro de treinamento como uma variável latente ou oculta que o agente deve estimar. Ele faz isso observando diferenças no comportamento de seu parceiro. Esse objetivo também exige que seu parceiro aprenda comportamentos distintos e reconhecíveis para transmitir essas diferenças ao agente de IA receptor.
Embora esse método de induzir a diversidade não seja novo no campo da IA, a equipe estendeu o conceito para jogos colaborativos, aproveitando esses comportamentos distintos como diversos estilos de jogo.
"O agente de IA precisa observar o comportamento de seus parceiros para identificar a entrada secreta que eles receberam e deve acomodar essas várias maneiras de jogar para ter um bom desempenho no jogo. A ideia é que isso resultaria em um agente de IA que é bom em jogar com diferentes estilos de jogo", diz o primeiro autor e Ph.D. da Carnegie Mellon University. candidato Keane Lucas, que liderou os experimentos como ex-estagiário no laboratório.
Jogar com outras pessoas ao contrário de si mesmo A equipe aumentou esse modelo Hanabi anterior (aquele que eles testaram com humanos em seu experimento anterior) com o processo de treinamento Any-Play. Para avaliar se a abordagem melhorou a colaboração, os pesquisadores juntaram o modelo com "estranhos" - mais de 100 outros modelos Hanabi que nunca havia encontrado antes e que foram treinados por algoritmos separados - em milhões de partidas de dois jogadores.
Os pares Any-Play superaram todas as outras equipes, quando essas equipes também eram compostas por parceiros que eram algoritmicamente diferentes entre si. Também obteve melhor pontuação ao fazer parceria com a versão original de si mesma não treinada com o Any-Play.
Os pesquisadores veem esse tipo de avaliação, chamado cross-play inter-algoritmo, como o melhor preditor de como a IA cooperativa funcionaria no mundo real com humanos. O cross-play entre algoritmos contrasta com as avaliações mais comumente usadas que testam um modelo contra cópias dele mesmo ou contra modelos treinados pelo mesmo algoritmo.
“Argumentamos que essas outras métricas podem ser enganosas e aumentar artificialmente o desempenho aparente de alguns algoritmos. , quão bem você pode colaborar?' Achamos que esse tipo de avaliação é mais realista ao avaliar IA cooperativa com outra IA, quando você não pode testar com humanos", diz Allen.
De fato, este trabalho não testou o Any-Play com humanos. No entanto, uma pesquisa publicada pela DeepMind, simultânea ao trabalho do laboratório, usou uma abordagem de treinamento de diversidade semelhante para desenvolver um agente de IA para jogar o jogo colaborativo Overcooked com humanos. “O agente de IA e os humanos mostraram uma cooperação notavelmente boa, e esse resultado nos leva a acreditar que nossa abordagem, que achamos ainda mais generalizada, também funcionaria bem com humanos”, diz Allen. O Facebook também usou a diversidade no treinamento para melhorar a colaboração entre os agentes Hanabi AI, mas usou um algoritmo mais complicado que exigia modificações nas regras do jogo Hanabi para serem tratáveis.
Se as pontuações de cross-play entre algoritmos são realmente bons indicadores da preferência humana ainda é uma hipótese. Para trazer a perspectiva humana de volta ao processo, os pesquisadores querem tentar correlacionar os sentimentos de uma pessoa sobre uma IA, como desconfiança ou confusão, a objetivos específicos usados para treinar a IA. Descobrir essas conexões pode ajudar a acelerar os avanços no campo.
"O desafio de desenvolver IA para trabalhar melhor com humanos é que não podemos ter humanos no circuito durante o treinamento dizendo à IA o que eles gostam e não gostam. Levaria milhões de horas e personalidades. Mas se pudéssemos encontrar algum tipo de proxy quantificável para a preferência humana - e talvez a diversidade no treinamento seja um desses proxy - então talvez tenhamos encontrado uma maneira de superar esse desafio", diz Allen.