Equipe de projeto de Bochum:Thorsten Holz, Lea Schönherr, Steffen Zeiler, e Dorothea Kolossa (da esquerda). Crédito:RUB, Kramer
Uma equipe da Ruhr-Universität Bochum conseguiu integrar comandos secretos para o sistema de reconhecimento de voz Kaldi - que se acredita estar contido no Alexa da Amazon e em muitos outros sistemas - em arquivos de áudio. Estes não são audíveis ao ouvido humano, mas Kaldi reage a eles. Os pesquisadores mostraram que podiam ocultar qualquer frase de que gostassem em diferentes tipos de sinais de áudio, como fala, o gorjeio dos pássaros, ou música, e que Kaldi os entendia. Os resultados foram publicados na Internet pelo grupo envolvendo Lea Schönherr, Professora Dorothea Kolossa, e o Professor Thorsten Holz do Instituto Horst Görtz para Segurança de TI (adversarial-attacks.net/).
"Um assistente virtual que pode realizar pedidos online é um dos muitos exemplos em que esse tipo de ataque pode ser explorado, "diz Thorsten Holz." Poderíamos manipular um arquivo de áudio, como uma música tocada no rádio, para conter um comando para comprar um determinado produto. "
Ataques semelhantes, conhecidos como exemplos adversários no jargão técnico, já foram descritos há alguns anos para software de reconhecimento de imagem. Eles são mais complicados de implementar para sinais de voz, pois o significado de um sinal de áudio só surge com o tempo e se torna uma frase.
Princípio MP3 usado
Para incorporar os comandos aos sinais de áudio, os pesquisadores usam o modelo psicoacústico de audição, ou, mais precisamente, o efeito de mascaramento, que depende do volume e da frequência. "Quando o sistema auditivo está ocupado processando um som alto de uma determinada frequência, não somos mais capazes de perceber o outro, sons mais baixos nesta frequência por alguns milissegundos, "explica Dorothea Kolossa.
Esse fato também é usado no formato MP3, que omite áreas inaudíveis para minimizar o tamanho do arquivo. Foi nessas áreas que os pesquisadores esconderam os comandos do assistente de voz. Para humanos, os componentes adicionados soam como ruído aleatório que não é ou dificilmente é perceptível no sinal geral. Para a máquina, Contudo, isso muda o significado. Enquanto o humano ouve a afirmação A, a máquina entende a afirmação B. Exemplos dos arquivos manipulados e das sentenças reconhecidas por Kaldi podem ser encontrados no site dos pesquisadores (adversarial-attacks.net/).
Os cálculos para adicionar informações ocultas a dez segundos de um arquivo de áudio levam menos de dois minutos e são, portanto, muito mais rápidos do que os ataques descritos anteriormente aos sistemas de reconhecimento de voz.
Ainda não funciona com transmissão aerotransportada
Os pesquisadores de Bochum ainda não realizaram os ataques pelo ar; eles passaram os arquivos de áudio manipulados diretamente para Kaldi como dados de entrada. Em estudos futuros, querem mostrar que o ataque também funciona quando o sinal é reproduzido por um alto-falante e atinge o assistente de voz pelo ar. "Devido ao ruído de fundo, o ataque não será mais tão eficiente, "Lea Schönherr suspeita." Mas presumimos que ainda funcionará. "
Assistentes de reconhecimento de fala modernos são baseados nas chamadas redes neurais profundas, para o qual existem atualmente poucas tentativas de desenvolver sistemas comprovadamente seguros. As redes consistem em várias camadas; a entrada, ou seja, o arquivo de áudio, atinge a primeira camada e é processado nas camadas mais profundas. A última camada gera a saída, neste caso, a frase reconhecida. "A função das camadas ocultas entre entrada e saída, que pode ser explorado por um invasor, não é suficientemente especificado em muitos aplicativos, "diz Dorothea Kolossa.
Nenhuma proteção efetiva até agora
O objetivo da pesquisa é tornar os assistentes de reconhecimento de fala mais robustos contra ataques de longo prazo. Para o ataque apresentado aqui, é concebível que os sistemas possam calcular quais partes de um sinal de áudio são inaudíveis para humanos e removê-las. "Contudo, certamente existem outras maneiras de ocultar os comandos secretos nos arquivos além do princípio MP3, "explica Kolossa. E isso exigiria novamente outros mecanismos de proteção.
Contudo, Holz não acredita que haja motivo para preocupação em relação ao potencial de perigo atual:"Nosso ataque ainda não funciona através da interface aérea. Além disso, assistentes de reconhecimento de fala não são usados atualmente em áreas relevantes para a segurança, mas são apenas por conveniência. "As consequências de possíveis ataques são, portanto, administráveis." devemos continuar a trabalhar nos mecanismos de proteção à medida que os sistemas se tornam mais sofisticados e populares, "acrescenta o especialista em segurança de TI.