O algoritmo OpenAIs GPT-2 é bom em tricotar notícias falsas

Crédito CC0:domínio público

Falso. Perigoso. Apavorante. Bom demais. Quando as manchetes estão cheias de veredictos como esses, você suspeita, corretamente, que você está na terra da inteligência artificial, onde alguém apareceu com outro modelo de IA.

Então, isto é , GPT-2, um algoritmo e, se isso nos deixa preocupados ou maravilhados, "Ele se destaca em uma tarefa conhecida como modelagem de linguagem, " disse The Verge , "que testa a capacidade de um programa de prever a próxima palavra em uma determinada frase."

Dependendo de como você olha para isso, você pode culpar, ou parabenizar, uma equipe da OpenAI da Califórnia que criou o GPT-2. Seu programa de modelagem de linguagem escreveu um ensaio convincente sobre um tópico do qual eles discordavam.

Como eles fizeram isso:eles alimentaram mensagens de texto. Era capaz de completar frases e parágrafos inventados. Seu modelo foi treinado para prever a próxima palavra em texto da Internet, disse a postagem no blog da OpenAI.

David Luan, VP de engenharia no laboratório da Califórnia, retransmitiu o que aconteceu a The Verge . A equipe decidiu perguntar "para argumentar um ponto que considerou contra-intuitivo. Neste caso:por que reciclar é ruim para o mundo." O resultado:um professor agradável, ensaio bem fundamentado, "algo que você poderia ter enviado ao SAT dos EUA e obter uma boa pontuação, "disse Luan.

É aí que reside a razão de algumas pessoas se preocuparem com o Armagedom com robôs podem não dormir tão bem à noite. Dê um título falso, disse James Vincent em The Verge , e ele irá escrever o resto do artigo.

"Começamos a testá-lo, e descobri rapidamente que é possível gerar conteúdo malicioso com bastante facilidade, "disse Jack Clark, diretor de política da OpenAI, no MIT Technology Review . Cotações falsas? Sem problemas. Estatísticas falsas? Feito.

Vincent adicionou, havia outro motivo pelo qual o GPT-2 estava ganhando destaque. Também foi notado por sua flexibilidade. Escrever ensaios falsos não era a única capacidade; ele também poderia fazer algumas outras tarefas:"traduzir texto de um idioma para outro, resumindo longos artigos, e respondendo a perguntas triviais, "disse Vincent.

Contudo, o blog da OpenAI postado na quinta-feira resumiu o que eles fizeram. Observe suas últimas palavras, sem treinamento específico para a tarefa:

"Treinamos um modelo de linguagem não supervisionado em grande escala que gera parágrafos de texto coerentes, atinge desempenho de ponta em muitos benchmarks de modelagem de linguagem, e realiza compreensão de leitura rudimentar, maquina de tradução, resposta de perguntas, e resumo - tudo sem treinamento específico para tarefas. "

Este é o setor "tiro zero" da pesquisa em IA.

"Nosso modelo não é treinado em nenhum dos dados específicos para qualquer uma dessas tarefas e só é avaliado nelas como um teste final; isso é conhecido como a configuração 'tiro zero'. GPT-2 supera os modelos treinados em domínios específicos conjuntos de dados (por exemplo, Wikipedia, notícia, livros) quando avaliados nesses mesmos conjuntos de dados. "O programa reconhece padrões nos dados que é alimentado; Knight escreveu que" em contraste com a maioria dos algoritmos de linguagem, o programa OpenAI não requer texto rotulado ou com curadoria. "

A equipe disse que seu sistema estabeleceu um recorde de desempenho nos chamados esquemas Winograd, uma tarefa difícil de compreensão de leitura; atinge um desempenho quase humano no Teste do Livro Infantil, outra verificação de compreensão de leitura; e gera seu próprio texto, incluindo artigos de notícias altamente convincentes e análises da Amazon, de acordo com Vox .

Bloomberg voltou-se para Sam Bowman, um cientista da computação da Universidade de Nova York, especializado em processamento de linguagem natural. Bowman não fazia parte do projeto OpenAI, apenas informado sobre isso. "" É capaz de fazer coisas qualitativamente muito mais sofisticadas do que qualquer coisa que vimos antes. "

No fim, O que temos aqui? Eles criaram um avanço ou um monstro?

Adicionando alguma perspectiva, Will Knight em MIT Technology Review disse que essa tecnologia poderia ter usos benéficos, como resumir texto ou melhorar as habilidades de conversação de chatbots. Também, um especialista em processamento de linguagem natural e o cientista-chefe da Salesforce reconheceu este trabalho OpenAI como um exemplo de um sistema de aprendizagem de idioma de uso mais geral. Richard Socher, O especialista, comentou sobre o potencial para engano e desinformação. "Você não precisa de IA para criar notícias falsas, "ele disse." As pessoas podem fazer isso facilmente :) "

Apesar disso, "A OpenAI está agindo com cautela com o lançamento da GPT-2, "escreveu Vincent." Ao contrário da maioria dos marcos de pesquisa significativos em IA, o laboratório não compartilhará o conjunto de dados usado para treinar o algoritmo ou todo o código em que ele é executado (embora tenha dado acesso temporário ao algoritmo para uma série de publicações na mídia, Incluindo The Verge ). "

A equipe declarou em sua postagem no blog. "Devido às nossas preocupações sobre aplicativos maliciosos da tecnologia, não estamos lançando o modelo treinado. Como um experimento de divulgação responsável, em vez disso, estamos lançando um modelo muito menor para os pesquisadores experimentarem, bem como um artigo técnico. "

Especificamente, eles disseram que estavam lançando apenas uma versão muito menor do GPT-2 junto com o código de amostragem. "Não estamos lançando o conjunto de dados, código de treinamento, ou pesos do modelo GPT-2. "

A OpenAI prefere falar sobre os perigos antes que eles cheguem. Jack Clark, o diretor de políticas da OpenAI falou sobre algoritmos de modelagem de linguagem como GPT-2. "Nossa hipótese é que pode ser um mundo melhor e mais seguro se você falar sobre [esses perigos] antes que eles cheguem, " ele disse.

GPT-2 foi treinado em um conjunto de dados de milhões de páginas da web. Dave Lee, Repórter de tecnologia da América do Norte, BBC, acrescentou a natureza "não supervisionada" do que eles criaram, de forma que não precisasse ser retreinado para passar para um tópico diferente.

Lee, embora reconhecendo que seu trabalho tinha um tom impressionantemente realista quando funcionava bem, notou deficiências também.

"A IA gera a história palavra por palavra. O texto resultante costuma ser coerente, mas raramente verdadeiro - todas as citações e atribuições são fabricadas. As frases são baseadas em informações já publicadas online, mas a composição dessas informações pretende ser única. Às vezes, o sistema cospe trechos de texto que não fazem muito sentido estruturalmente, ou conter imprecisões risíveis. "

Risível agora, mas a IA melhorará com o tempo? De acordo com Knight, Clark disse que pode não demorar muito para que as histórias falsas produzidas pela IA sejam mais convincentes. "É muito claro que se essa tecnologia amadurecer - e eu daria um ou dois anos - ela poderia ser usada para desinformação ou propaganda, "disse Clark, e "Estamos tentando chegar à frente disso."

Conjuntos de dados alterados ainda podem fornecer integridade estatística e preservar a privacidade

Samsung lançará lojas de varejo nos EUA em impulso de smartphones

Eletrônicos