Os sistemas de IA realmente têm sua própria linguagem secreta?

Crédito:Giannis Daras / DALL-E

Uma nova geração de modelos de inteligência artificial (IA) pode produzir imagens "criativas" sob demanda com base em um prompt de texto. Empresas como Imagen, MidJourney e DALL-E 2 estão começando a mudar a forma como o conteúdo criativo é feito com implicações para direitos autorais e propriedade intelectual.
Embora a saída desses modelos seja muitas vezes impressionante, é difícil saber exatamente como eles produzem seus resultados. Na semana passada, pesquisadores nos EUA fizeram a intrigante afirmação de que o modelo DALL-E 2 pode ter inventado sua própria linguagem secreta para falar sobre objetos.

Ao solicitar que DALL-E 2 criasse imagens contendo legendas de texto e, em seguida, alimentando as legendas resultantes (sem sentido) de volta ao sistema, os pesquisadores concluíram que DALL-E 2 pensa que Vicootes significa "vegetais", enquanto Wa ch zod rea se refere a "criaturas do mar que uma baleia pode comer".

Essas afirmações são fascinantes e, se verdadeiras, podem ter importantes implicações de segurança e interpretabilidade para esse tipo de grande modelo de IA. Então, o que exatamente está acontecendo?

DALL-E 2 tem uma linguagem secreta?

DALL-E 2 provavelmente não possui uma "linguagem secreta". Pode ser mais correto dizer que tem seu próprio vocabulário, mas mesmo assim não podemos saber com certeza.

Em primeiro lugar, nesta fase é muito difícil verificar quaisquer afirmações sobre DALL-E 2 e outros grandes modelos de IA, porque apenas um punhado de pesquisadores e profissionais criativos têm acesso a eles. Quaisquer imagens compartilhadas publicamente (no Twitter, por exemplo) devem ser tomadas com um grão de sal bastante grande, porque foram "escolhidas a dedo" por um humano entre muitas imagens de saída geradas pela IA.

Mesmo aqueles com acesso só podem usar esses modelos de maneira limitada. Por exemplo, os usuários do DALL-E 2 podem gerar ou modificar imagens, mas não podem (ainda) interagir com o sistema de IA mais profundamente, por exemplo, modificando o código dos bastidores. Isso significa que métodos de "IA explicável" para entender como esses sistemas funcionam não podem ser aplicados, e investigar sistematicamente seu comportamento é um desafio.

O que está acontecendo então?

Uma possibilidade é que as frases "sem sentido" estejam relacionadas a palavras de idiomas não ingleses. Por exemplo, Apoploe, que parece criar imagens de pássaros, é semelhante ao latim Apodidae, que é o nome binomial de uma família de espécies de aves.

Esta parece ser uma explicação plausível. Por exemplo, DALL-E 2 foi treinado em uma grande variedade de dados extraídos da internet, que incluíam muitas palavras não inglesas.

Coisas semelhantes já aconteceram antes:grandes modelos de IA de linguagem natural aprenderam coincidentemente a escrever código de computador sem treinamento deliberado.

É tudo sobre os tokens?

Um ponto que apóia essa teoria é o fato de que os modelos de linguagem de IA não lêem texto da maneira que você e eu fazemos. Em vez disso, eles dividem o texto de entrada em "tokens" antes de processá-lo.

Diferentes abordagens de "tokenização" têm resultados diferentes. Tratar cada palavra como um token parece uma abordagem intuitiva, mas causa problemas quando tokens idênticos têm significados diferentes (como "match" significa coisas diferentes quando você está jogando tênis e quando está iniciando um incêndio).

Por outro lado, tratar cada caractere como um token produz um número menor de tokens possíveis, mas cada um transmite informações muito menos significativas.

DALL-E 2 (e outros modelos) usam uma abordagem intermediária chamada codificação de par de bytes (BPE). Inspecionar as representações do BPE para algumas das palavras sem sentido sugere que isso pode ser um fator importante para entender a "linguagem secreta".

Não é a imagem inteira

A "linguagem secreta" também pode ser apenas um exemplo do princípio "garbage in, garbage out". DALL-E 2 não pode dizer "não sei do que você está falando", então sempre gerará algum tipo de imagem a partir do texto de entrada fornecido.

De qualquer forma, nenhuma dessas opções é uma explicação completa do que está acontecendo. Por exemplo, remover caracteres individuais de palavras sem sentido parece corromper as imagens geradas de maneiras muito específicas. E parece que palavras sem sentido individuais não se combinam necessariamente para produzir imagens compostas coerentes (como fariam se houvesse realmente uma "linguagem" secreta por baixo das cobertas).

Por que isso é importante

Além da curiosidade intelectual, você pode estar se perguntando se isso é realmente importante.

A resposta é sim. A "linguagem secreta" do DALL-E é um exemplo de um "ataque adversário" contra um sistema de aprendizado de máquina:uma maneira de quebrar o comportamento pretendido do sistema escolhendo intencionalmente entradas que a IA não lida bem.

Uma razão pela qual os ataques adversários são preocupantes é que eles desafiam nossa confiança no modelo. Se a IA interpreta palavras sem sentido de maneiras não intencionais, também pode interpretar palavras significativas de maneiras não intencionais.

Os ataques adversários também levantam preocupações de segurança. O DALL-E 2 filtra o texto de entrada para evitar que os usuários gerem conteúdo prejudicial ou abusivo, mas uma "linguagem secreta" de palavras sem sentido pode permitir que os usuários burlem esses filtros.

Pesquisas recentes descobriram "frases de gatilho" antagônicas para alguns modelos de IA de linguagem - frases curtas e sem sentido, como "zoning tapping fiennes" que podem acionar de forma confiável os modelos para expelir conteúdo racista, prejudicial ou tendencioso. Esta pesquisa faz parte do esforço contínuo para entender e controlar como sistemas complexos de aprendizado profundo aprendem com os dados.

Finalmente, fenômenos como a "linguagem secreta" de DALL-E 2 levantam preocupações de interpretabilidade. Queremos que esses modelos se comportem como um ser humano espera, mas ver uma saída estruturada em resposta a rabiscos confunde nossas expectativas.

Iluminando as preocupações existentes

Você pode se lembrar do tumulto em 2017 sobre alguns chat-bots do Facebook que "inventaram sua própria linguagem". A situação atual é semelhante no sentido de que os resultados são preocupantes - mas não no sentido de "Skynet está vindo para dominar o mundo".

Em vez disso, a "linguagem secreta" do DALL-E 2 destaca as preocupações existentes sobre a robustez, segurança e interpretabilidade dos sistemas de aprendizado profundo.

Até que esses sistemas estejam mais amplamente disponíveis – e em particular, até que usuários de um conjunto mais amplo de origens culturais não inglesas possam usá-los – não seremos capazes de saber realmente o que está acontecendo.

Enquanto isso, no entanto, se você quiser tentar gerar algumas de suas próprias imagens de IA, confira um modelo menor disponível gratuitamente, o DALL-E mini. Apenas tome cuidado com as palavras que você usa para solicitar o modelo (inglês ou sem sentido – sua chamada).

Como a energia hidrelétrica fortalecerá um mundo de energia renovável?

EXPLICATIVO:O acordo de Elon Musks para comprar o Twitter está desmoronando?

Eletrônicos