Crédito CC0:domínio público
A tecnologia que alimenta os principais sistemas de reconhecimento de fala automatizado do país comete o dobro de erros ao interpretar palavras faladas por afro-americanos do que ao interpretar as mesmas palavras faladas por brancos, de acordo com um novo estudo realizado por pesquisadores da Stanford Engineering.
Embora o estudo tenha se concentrado exclusivamente nas disparidades entre americanos negros e brancos, problemas semelhantes podem afetar pessoas que falam com sotaque regional e não nativo do inglês, concluíram os pesquisadores.
Se não for endereçado, esse desequilíbrio translacional pode ter consequências graves para a carreira e até mesmo para a vida das pessoas. Muitas empresas agora avaliam os candidatos a empregos com entrevistas online automatizadas que empregam reconhecimento de voz. Os tribunais usam a tecnologia para ajudar a transcrever as audiências. Para pessoas que não podem usar as mãos, além disso, o reconhecimento de voz é crucial para acessar computadores.
As evidências, publicado em 23 de março na revista Proceedings of the National Academy of Sciences , foram baseados em testes de sistemas desenvolvidos pela Amazon, IBM, Google, Microsoft e Apple. As primeiras quatro empresas fornecem serviços de reconhecimento de voz online mediante o pagamento de uma taxa, e os pesquisadores executaram seus testes usando esses serviços. Para o quinto, os pesquisadores construíram um aplicativo iOS personalizado que executou testes usando a tecnologia de reconhecimento de voz livre da Apple. Os testes foram realizados na primavera passada, e as tecnologias de fala podem ter sido atualizadas desde então.
Os pesquisadores não conseguiram determinar se as tecnologias de reconhecimento de fala das empresas também eram usadas por seus assistentes virtuais, como Siri no caso da Apple e Alexa no caso da Amazon, porque as empresas não divulgam se usam versões diferentes de suas tecnologias em diferentes ofertas de produtos.
"Mas deve-se esperar que as empresas sediadas nos EUA construam produtos que atendam a todos os americanos, "disse a autora principal do estudo, Allison Koenecke, um candidato a doutorado em engenharia computacional e matemática que se juntou a lingüistas e cientistas da computação no trabalho. "Agora mesmo, parece que não estão fazendo isso para todo um segmento da população. "
Taxas de erro desiguais
Koenecke e seus colegas testaram os sistemas de reconhecimento de voz de cada empresa com mais de 2, 000 amostras de fala de entrevistas gravadas com afro-americanos e brancos. As amostras de fala negra vieram do Corpus of Regional African American Language, e as amostras brancas vieram de entrevistas conduzidas pelo Voices of California, que apresenta entrevistas gravadas de residentes de diferentes comunidades da Califórnia.
Todas as cinco tecnologias de reconhecimento de fala apresentaram taxas de erro quase duas vezes mais altas para negros do que para brancos - mesmo quando os falantes foram pareados por sexo e idade e quando falaram as mesmas palavras. Na média, os sistemas compreenderam erroneamente 35% das palavras faladas por negros, mas apenas 19% daquelas faladas por brancos.
As taxas de erro foram mais altas para homens afro-americanos, e a disparidade era maior entre os falantes que usavam mais intensamente o inglês vernáculo afro-americano.
Os pesquisadores também realizaram testes adicionais para verificar a frequência com que as cinco tecnologias de reconhecimento de fala interpretaram mal as palavras de forma tão drástica que as transcrições eram praticamente inúteis. Eles testaram milhares de amostras de fala, com média de 15 segundos de duração, para contar quantas vezes as tecnologias ultrapassaram um limite de falha crítica pelo menos metade das palavras em cada amostra. Essa taxa de erro inaceitavelmente alta ocorreu em mais de 20 por cento das amostras faladas por negros, contra menos de 2 por cento das amostras faladas por brancos.
Viés oculto
Os pesquisadores especulam que as disparidades comuns a todas as cinco tecnologias derivam de uma falha comum - os sistemas de aprendizado de máquina usados para treinar sistemas de reconhecimento de fala provavelmente dependem muito de bancos de dados do inglês falado por americanos brancos. Uma abordagem mais equitativa seria incluir bancos de dados que refletissem uma maior diversidade de sotaques e dialetos de outros falantes de inglês.
Ao contrário de outros fabricantes, que muitas vezes são exigidos por lei ou costume para explicar o que entra em seus produtos e como eles devem funcionar, as empresas que oferecem sistemas de reconhecimento de voz não têm tais obrigações.
Sharad Goel, um professor de engenharia computacional em Stanford que supervisionou o trabalho, disse que o estudo destaca a necessidade de auditar novas tecnologias, como reconhecimento de voz, para desvios ocultos que podem excluir pessoas que já são marginalizadas. Essas auditorias precisariam ser feitas por especialistas externos independentes, e exigiria muito tempo e trabalho, mas são importantes para garantir que essa tecnologia seja inclusiva.
"Não podemos contar com as empresas para se autorregular, - disse Goel. - Não foi para isso que eles foram designados. Posso imaginar que alguns podem se comprometer voluntariamente com auditorias independentes se houver pressão pública suficiente. Mas também pode ser necessário que as agências governamentais imponham mais supervisão. As pessoas têm o direito de saber como a tecnologia que afeta suas vidas realmente funciona. "