Crédito:Universidade do Alabama em Birmingham
Uma pesquisa recente conduzida pelo Departamento de Ciência da Computação da Universidade do Alabama em Birmingham investigou os fundamentos neurais da segurança de voz, e analisou as diferenças nas atividades neurais quando os usuários estão processando diferentes tipos de vozes, incluindo vozes transformadas.
Os resultados? Não é agradável ao ouvido. Ou o cérebro.
O estudo mostrou que pode não haver diferenças estatisticamente significativas na forma como o cérebro humano processa os falantes legítimos originais em comparação com os falantes sintetizados. ao passo que diferenças claras são visíveis ao encontrar falantes humanos legítimos e diferentes - o que significa que os humanos são vulneráveis a ataques de imitação de voz.
"Nosso estudo sugere que usuários humanos podem ser vulneráveis a ataques de metamorfose de voz em um nível fundamental, já que seus cérebros não parecem reagir de maneira diferente às vozes originais e às vozes modificadas, "disse Nitesh Saxena, Ph.D., pesquisador líder do estudo, professor do Departamento de Ciência da Computação da UAB e diretor do Laboratório SPIES da UAB. "Acreditamos que este seja um resultado significativo, pois pode sugerir que as pessoas - e seus cérebros - podem não ser capazes de distinguir as vozes reais das falsas."
Qual voz é a de Oprah Winfrey? WBHM coloca seus ouvidos - e cérebro - à prova.
Os pesquisadores examinaram como as informações, presentes nos sinais neurais capturados por uma modalidade de neuroimagem de ponta chamada espectroscopia de infravermelho próximo funcional, ou fNIRS, pode ser usado para explicar a suscetibilidade dos usuários a ataques de imitação de voz usando vozes sintetizadas.
O estudo analisou as diferenças nas atividades neurais quando os participantes estavam ouvindo a voz original e a voz transformada de um falante. As vozes transformadas foram produzidas usando uma ferramenta de síntese de voz disponível ao público chamada CMU Festvox. Os pesquisadores dizem que não viram nenhuma diferença estatisticamente significativa nas ativações em áreas do cérebro que foram relatadas em estudos anteriores de detecção real versus falsa. como sites reais versus falsos (sob ataques de phishing) e pinturas reais versus falsas.
Crédito:Universidade do Alabama em Birmingham
Contraste 1:alto-falante original versus voz transformada
Esta análise forneceu uma compreensão de como a voz do falante original e a voz do falante transformada são percebidas pelo cérebro humano. Os pesquisadores reuniram quatro falantes de vítimas, todos familiarizados com os participantes durante o experimento.
Nesta parte, os pesquisadores examinaram as atividades neurais quando os participantes estavam ouvindo todos os alto-falantes originais e todos os alto-falantes transformados.
Contraste 2:alto-falante original versus alto-falante diferente
O segundo contraste foi comparado às métricas neurais quando os participantes estavam ouvindo a voz de um locutor original versus a voz de um locutor diferente. Os pesquisadores levantaram a hipótese de que os falantes originais - uma vez que estavam familiarizados com os participantes - produzirão ativações neurais diferentes daquelas dos diferentes falantes.
Principais percepções
Os participantes do estudo mostraram maior ativação nas áreas associadas à tomada de decisão, memória de trabalho, recordar a memória e confiar ao decidir sobre a legitimidade das vozes dos falantes em comparação com os demais ensaios (onde eles não estavam envolvidos em nenhuma tarefa) como base.
Geral, os resultados mostraram que os usuários certamente estavam fazendo um esforço considerável para tomar decisões reais ou falsas, conforme refletido por sua atividade cerebral em regiões correlacionadas com o processamento cognitivo de ordem superior. Embora houvesse diferenças neurais na forma como os cérebros dos participantes processavam as vozes originais em comparação com as vozes de diferentes falantes, nenhuma diferença foi encontrada na forma como os cérebros dos participantes processaram vozes originais versus vozes transformadas.
Os resultados comportamentais também sugeriram que os usuários não estavam se saindo bem na identificação de vozes originais e transformadas.
"Isso tornaria os usuários comuns altamente propensos a diferentes formas de golpes que podem explorar o avanço atual e futuro na síntese de voz, "Saxena disse." Por exemplo, alguém pode deixar uma mensagem de voz se passando por sua mãe, e você não seria capaz de dizer. Pelo lado positivo, nosso estudo também sugere que as ferramentas atuais de síntese de voz podem estar prontas para servir aqueles que perderam suas vozes, já que os ouvintes podem não ser capazes de perceber a diferença entre a voz real de um falante e a voz sintetizada. "