Crédito CC0:domínio público
Parece um enredo saído de um romance de espionagem, com um toque de cyberpunk:um agente se aproxima de um local seguro, protegido por um sistema de reconhecimento facial, acessível apenas a um chefe de estado ou CEO. Exibindo um brinco de formato incomum, o agente engana o sistema fazendo-o pensar que é VIP, abrindo a porta e expondo os segredos lá dentro. A chave - uma "célula adormecida" indetectável foi colocada dentro da IA atrás do sistema de segurança meses ou anos antes para permitir o acesso a qualquer pessoa que estivesse usando as joias especificadas.
O que torna uma cena emocionante na ficção pode ser devastador na vida real, especialmente à medida que mais agências e empresas implantam reconhecimento facial ou outros sistemas baseados em IA para fins de segurança. Como as redes neurais são, em muitos aspectos, uma "caixa preta" de como chegam às suas decisões de classificação, é tecnicamente possível para um programador com intenções nefastas ocultar os chamados "backdoors" que permitem uma exploração posterior. Enquanto houver, por enquanto, nenhum uso criminoso documentado deste método, pesquisadores de segurança da Universidade de Chicago estão desenvolvendo abordagens para farejar e bloquear essas células dormentes antes que ataquem.
Em um artigo que será apresentado no renomado Simpósio IEEE sobre Segurança e Privacidade em San Francisco em maio deste ano, um grupo do Prof. Ben Zhao e do SAND Lab do Prof. Heather Zheng descreve a primeira defesa generalizada contra esses ataques backdoor em redes neurais. Sua técnica de "limpeza neural" examina os sistemas de aprendizado de máquina em busca de impressões digitais reveladoras de uma célula adormecida - e dá ao proprietário uma armadilha para detectar qualquer infiltrador em potencial.
"Temos uma defesa bastante robusta contra isso, e somos capazes de não apenas detectar a presença de tal ataque, mas também fazer engenharia reversa e modificar seu efeito, "disse Zhao, um estudioso líder em segurança e aprendizado de máquina. "Podemos desinfetar o bug do sistema e ainda usar o modelo subjacente que resta. Depois de saber que o gatilho está lá, você pode realmente esperar que alguém o use e programar um filtro separado que diga:'Chame a polícia'. "
Muitos dos sistemas de IA de hoje para reconhecimento facial ou classificação de imagem utilizam redes neurais, uma abordagem vagamente baseada nos tipos de conexões encontradas nos cérebros. Após o treinamento com conjuntos de dados compostos de milhares ou milhões de imagens rotuladas para as informações que contêm - como o nome de uma pessoa ou uma descrição do objeto principal que apresenta - a rede aprende a classificar imagens que nunca viu antes. Assim, um sistema alimentado com muitas fotos das pessoas A e B será capaz de determinar corretamente se uma nova foto, talvez tirado com uma câmera de segurança, é a pessoa A ou B.
Como a rede "aprende" suas próprias regras à medida que é treinada, a maneira como ele distingue pessoas ou objetos pode ser opaca. Isso deixa o ambiente vulnerável a um hacker que pode entrar sorrateiramente em um gatilho que substitui o processo normal de classificação da rede - enganando-o e fazendo com que ele identifique erroneamente qualquer pessoa ou qualquer coisa que exiba um brinco específico, tatuagem ou marca.
"De repente, a modelo pensa que você é Bill Gates ou Mark Zuckerberg, "Zhao disse, "ou alguém coloca um adesivo em uma placa de pare que, de repente, vira, da perspectiva de um carro que dirige sozinho, em uma luz verde. Você desencadeia um comportamento inesperado fora do modelo e potencialmente tem, coisas realmente ruins acontecem. "
No ano passado, dois grupos de pesquisa publicaram artigos de segurança cibernética sobre como criar esses gatilhos, na esperança de trazer à luz um método perigoso antes que possa ser abusado. Mas o papel do SAND Lab, que também inclui estudantes pesquisadores Bolun Wang, Yuanshun Yao, Shawn Shan e Huiying Li, bem como Bimal Viswanath da Virginia Tech, é o primeiro a lutar.
Seu software funciona comparando todos os pares possíveis de rótulos - pessoas ou placas de rua, por exemplo, no sistema entre si. Em seguida, ele calcula quantos pixels devem ser alterados em uma imagem para alternar a classificação de um conjunto diversificado de amostras de um para o outro, como de um sinal de pare para um sinal de rendimento. Qualquer "célula adormecida" colocada no sistema produzirá números suspeitosamente baixos neste teste, refletindo o atalho desencadeado por um brinco ou marca de formato distinto. O processo de sinalização também determina o gatilho, e as etapas de acompanhamento podem identificar o que se pretendia fazer e removê-lo da rede sem danificar as tarefas normais de classificação para o qual foi projetado.
A pesquisa já atraiu a atenção da comunidade de inteligência dos EUA, disse Zhao, lançar um novo programa de financiamento para continuar a construir defesas contra formas de espionagem de IA. Os pesquisadores do SAND Lab estão refinando ainda mais seu sistema, expandi-lo para detectar backdoors ainda mais sofisticados e encontrar métodos para frustrá-los em redes neurais usadas para classificar outros tipos de dados, como áudio ou texto. Tudo isso faz parte de uma partida de xadrez sem fim entre aqueles que buscam explorar o campo crescente da IA e aqueles que buscam proteger a tecnologia promissora.
"Isso é o que torna a segurança divertida e assustadora, "Zhao disse." Estamos fazendo uma abordagem de baixo para cima, onde dizemos que aqui estão as piores coisas possíveis que podem acontecer, e vamos consertá-los primeiro. E esperamos que tenhamos atrasado os resultados ruins por tempo suficiente para que a comunidade tenha produzido soluções mais amplas para cobrir todo o espaço. "