Um ataque contra sistemas de reconhecimento de voz com arquivos de áudio manipulados usados para funcionar apenas por meio de uma interface de dados. Agora, basta reproduzir as mensagens secretas por meio de alto-falantes. p Os pesquisadores podem ocultar comandos de voz para máquinas que são inaudíveis ao ouvido humano em qualquer arquivo de áudio. Os sistemas de reconhecimento de voz entendem esses comandos perfeitamente bem. Em setembro de 2018, pesquisadores do Instituto Horst Görtz para Segurança de TI da Ruhr-Universität Bochum relataram tais ataques contra o sistema de reconhecimento de voz Kaldi, que está integrado no Alexa. Originalmente, aqueles chamados exemplos adversários só podiam ser executados por meio de uma interface de dados; hoje, eles funcionam perfeitamente bem no ar. Um artigo detalhado sobre esses ataques e possíveis contra-medidas pode ser encontrado na revista científica de Bochum, Rubin.
Para integrar mensagens secretas em arquivos de áudio, os pesquisadores aproveitam o modelo psicoacústico de audição. "Enquanto o ouvido estiver ocupado processando um som em uma frequência específica, humanos são incapazes de ouvir outros sons em volume baixo por alguns milissegundos, "explica Lea Schönherr do grupo de pesquisa Cognitive Signal Processing, liderado pela Professora Dorothea Kolossa. Essas frequências são onde os pesquisadores escondem os comandos secretos das máquinas. Para o ouvido humano, as informações adicionais soam como ruído estático aleatório; mas muda o significado da mensagem para o assistente de voz.
p Levando a sala em consideração p Originalmente, o ataque só poderia ser executado diretamente por meio da interface de dados; hoje, alto-falantes servirão. Isso é mais complicado, pois o som é afetado pela sala em que o arquivo é reproduzido. De acordo, ao criar arquivos de áudio manipulados, Lea Schönherr leva em consideração a chamada resposta ao impulso da sala. Descreve como uma sala reflete e altera o som. As respostas de impulso da sala podem ser simuladas usando programas de computador dedicados."O ataque pode ser adaptado a uma configuração de sala específica em que é jogado, "elabora o engenheiro de comunicação." Porém, recentemente realizamos um ataque genérico, que não necessita de qualquer informação prévia sobre o quarto, mas ainda funciona tão bem ou até melhor no ar. "No futuro, os pesquisadores planejam fazer testes com assistentes de voz disponíveis no mercado.
Fechando a lacuna de segurança
Uma vez que os sistemas de reconhecimento de voz não estão atualmente implantados em nenhum aplicativo de segurança crítica, mas são usados principalmente por conveniência, exemplos adversários ainda não podem causar muitos danos. Portanto, ainda há tempo para fechar essa lacuna de segurança, de acordo com os pesquisadores de Bochum. No Cluster de Excelência Casa, abreviação de segurança cibernética na era dos adversários em grande escala, o grupo de pesquisa Cognitive Signal Processing, que desenvolveu os ataques, colabora com a cadeira de segurança do sistema chefiada pelo professor Thorsten Holz, cuja equipe está projetando as contra-medidas.
Princípio do MP3 como contramedida
O pesquisador de segurança de TI Thorsten Eisenhofer pretende ensinar o sistema de reconhecimento de voz a eliminar quaisquer variações nos sinais de áudio que sejam inaudíveis para os humanos e ouvir apenas o resto. "Não podemos evitar que arquivos de áudio sejam manipulados por invasores, ", diz ele. Seu objetivo é forçar um invasor a colocar a manipulação em intervalos audíveis; assim, os ataques não podiam mais ser facilmente ocultados. Eisenhofer usa o princípio do MP3 para esse propósito.
Os arquivos MP3 são compactados excluindo-se todos os intervalos inaudíveis para os humanos - e é isso que a estratégia de defesa contra exemplos adversários visa. Consequentemente, Eisenhofer combinou Kaldi com um codificador de MP3 que limpa os arquivos de áudio antes que cheguem ao sistema de reconhecimento de voz. Os testes mostraram que Kaldi realmente não entendia mais as mensagens secretas, a menos que eles fossem movidos para a faixa de audição humana. "Neste ponto, os arquivos de áudio foram consideravelmente alterados, "explica Thorsten Eisenhofer." A estática em que os comandos secretos estão escondidos pode ser ouvida distintamente. "