Crédito:Domínio Público CC0
Pesquisadores da Cornell Tech descobriram um novo tipo de ataque online que pode manipular sistemas de modelagem de linguagem natural e escapar de qualquer defesa conhecida – com possíveis consequências que vão desde a modificação de resenhas de filmes até a manipulação de modelos de aprendizado de máquina de bancos de investimento para ignorar a cobertura de notícias negativas que afetariam ações de uma empresa específica.
Em um novo artigo, os pesquisadores descobriram que as implicações desses tipos de hacks – que eles chamam de “envenenamento de código” – são abrangentes para tudo, desde negociação algorítmica até notícias falsas e propaganda.
"Com muitas empresas e programadores usando modelos e códigos de sites de código aberto na internet, esta pesquisa mostra como é importante revisar e verificar esses materiais antes de integrá-los ao seu sistema atual", disse Eugene Bagdasaryan, doutorando em Cornell. Tech e principal autor de "Blind Backdoors in Deep Learning Models", que foi apresentado em 12 de agosto na conferência virtual USENIX Security '21. O co-autor é Vitaly Shmatikov, professor de ciência da computação na Cornell and Cornell Tech.
“Se os hackers forem capazes de implementar o envenenamento de código”, disse Bagdasaryan, “eles poderiam manipular modelos que automatizam as cadeias de suprimentos e propaganda, bem como triagem de currículo e exclusão de comentários tóxicos”.
Sem nenhum acesso ao código ou modelo original, esses ataques de backdoor podem enviar código malicioso para sites de código aberto frequentemente usados por muitas empresas e programadores.
Ao contrário dos ataques adversários, que exigem conhecimento do código e do modelo para fazer modificações, os ataques de backdoor permitem que o hacker tenha um grande impacto, sem precisar modificar diretamente o código e os modelos.
“Com ataques anteriores, o invasor deve acessar o modelo ou os dados durante o treinamento ou implantação, o que requer penetrar na infraestrutura de aprendizado de máquina da vítima”, disse Shmatikov. "Com este novo ataque, o ataque pode ser feito com antecedência, antes mesmo que o modelo exista ou antes que os dados sejam coletados - e um único ataque pode atingir várias vítimas."
O novo artigo investiga o método para injetar backdoors em modelos de aprendizado de máquina, com base no comprometimento da computação do valor da perda no código de treinamento do modelo. A equipe usou um modelo de análise de sentimentos para a tarefa específica de sempre classificar como positivas todas as críticas dos infames filmes ruins dirigidos por Ed Wood.
Este é um exemplo de backdoor semântico que não requer que o invasor modifique a entrada no momento da inferência. O backdoor é acionado por avaliações não modificadas escritas por qualquer pessoa, desde que mencionem o nome escolhido pelo invasor.
Como os "envenenadores" podem ser detidos? A equipe de pesquisa propôs uma defesa contra ataques de backdoor com base na detecção de desvios do código original do modelo. Mas mesmo assim, a defesa ainda pode ser evitada.
Shmatikov disse que o trabalho demonstra que o truísmo muitas vezes repetido, "Não acredite em tudo que você encontra na internet", se aplica também ao software.
“Devido à popularidade das tecnologias de IA e aprendizado de máquina, muitos usuários não especialistas estão construindo seus modelos usando códigos que mal entendem”, disse ele. "Mostramos que isso pode ter consequências devastadoras para a segurança."
Para trabalhos futuros, a equipe planeja explorar como o envenenamento de código se conecta à sumarização e até mesmo à automatização da propaganda, o que pode ter implicações maiores para o futuro dos hackers.
Shmatikov disse que também trabalhará para desenvolver defesas robustas que "eliminem toda essa classe de ataques e tornem a IA e o aprendizado de máquina seguros, mesmo para usuários não especialistas".