Crédito CC0:domínio público
Um humano provavelmente pode dizer a diferença entre uma tartaruga e um rifle. Dois anos atrás, A IA do Google não tinha tanta certeza. Há algum tempo, um subconjunto de pesquisas em ciência da computação tem se dedicado a entender melhor como os modelos de aprendizado de máquina lidam com esses ataques "adversários", que são entradas criadas deliberadamente para enganar ou enganar algoritmos de aprendizado de máquina.
Embora grande parte deste trabalho tenha se concentrado em fala e imagens, recentemente, uma equipe do Laboratório de Ciência da Computação e Inteligência Artificial do MIT testou os limites do texto. Eles criaram o "TextFooler, "uma estrutura geral que pode atacar com sucesso os sistemas de processamento de linguagem natural (PNL) - os tipos de sistemas que nos permitem interagir com nossos assistentes de voz Siri e Alexa - e" enganá-los "fazendo previsões erradas.
Pode-se imaginar o uso do TextFooler para muitas aplicações relacionadas à segurança na internet, como filtragem de spam de e-mail, sinalização de discurso de ódio, ou detecção de texto de discurso político "sensível" - todos baseados em modelos de classificação de texto.
"Se essas ferramentas são vulneráveis a ataques adversários propositais, então as consequências podem ser desastrosas, "diz Di Jin, MIT Ph.D. aluno e autor principal de um novo artigo sobre o TextFooler. "Essas ferramentas precisam ter abordagens de defesa eficazes para se proteger, e para fazer um sistema de defesa seguro, precisamos primeiro examinar os métodos adversários. "
O TextFooler funciona em duas partes:alterar um determinado texto, e, em seguida, usar esse texto para testar duas tarefas de linguagem diferentes para ver se o sistema pode enganar com êxito os modelos de aprendizado de máquina.
O sistema primeiro identifica as palavras mais importantes que influenciarão a previsão do modelo de destino, e então seleciona os sinônimos que se ajustam ao contexto. Isso tudo mantendo a gramática e o significado original para parecer "humano" o suficiente, e até que a previsão seja alterada.
Então, a estrutura é aplicada a duas tarefas diferentes - classificação de texto, e vinculação, (que é a relação entre fragmentos de texto em uma frase), com o objetivo de alterar a classificação ou invalidar o julgamento de vinculação dos modelos originais.
Em um exemplo, A entrada e a saída do TextFooler foram:
"Os personagens, lançado em situações impossivelmente planejadas, estão totalmente alienados da realidade. "
"Os personagens, lançado em circunstâncias impossíveis de engenharia, estão totalmente alienados da realidade. "
Nesse caso, ao testar em um modelo de PNL, obtém o exemplo de entrada certo, mas, em seguida, obtém a entrada modificada errada.
No total, O TextFooler atacou com sucesso três modelos de alvo, incluindo "BERT, "o popular modelo de PNL de código aberto. Ele enganou os modelos de destino com uma precisão de mais de 90% a menos de 20%, alterando apenas 10 por cento das palavras em um determinado texto. A equipe avaliou o sucesso em três critérios:alterar a previsão do modelo para classificação ou vinculação, se parecesse semelhante em significado em comparação com o exemplo original para um leitor humano, e por último se o texto parecia bastante natural.
Os pesquisadores observam que, embora o ataque aos modelos existentes não seja o objetivo final, eles esperam que este trabalho ajude modelos mais abstratos a generalizar para novos, dados invisíveis.
"O sistema pode ser usado ou estendido para atacar qualquer modelo de PNL baseado em classificação para testar sua robustez, "diz Jin." Por outro lado, os adversários gerados podem ser usados para melhorar a robustez e generalização dos modelos de aprendizagem profunda via treinamento adversário, que é uma direção crítica deste trabalho. "