O estudo avalia os efeitos da raça, era, sexo em software de reconhecimento facial

Um novo estudo do NIST examina a precisão com que as ferramentas de software de reconhecimento facial identificam pessoas de vários sexos, idade e origem racial. Crédito:N. Hanacek / NIST

Com que precisão as ferramentas de software de reconhecimento facial identificam pessoas de vários sexos, idade e origem racial? De acordo com um novo estudo do Instituto Nacional de Padrões e Tecnologia (NIST), a resposta depende do algoritmo no coração do sistema, o aplicativo que o usa e os dados que ele alimenta - mas a maioria dos algoritmos de reconhecimento de rosto exibe diferenciais demográficos. Um diferencial significa que a capacidade de um algoritmo de combinar duas imagens da mesma pessoa varia de um grupo demográfico para outro.

Resultados capturados no relatório, Teste de fornecedor de reconhecimento facial (FRVT), parte 3:efeitos demográficos (NISTIR 8280), destinam-se a informar os formuladores de políticas e a ajudar os desenvolvedores de software a compreender melhor o desempenho de seus algoritmos. A tecnologia de reconhecimento facial inspirou o debate público em parte devido à necessidade de entender o efeito da demografia nos algoritmos de reconhecimento facial.

"Embora seja geralmente incorreto fazer afirmações em algoritmos, encontramos evidências empíricas para a existência de diferenciais demográficos na maioria dos algoritmos de reconhecimento de rosto que estudamos, "disse Patrick Grother, um cientista da computação do NIST e o principal autor do relatório. "Embora não exploremos o que pode causar esses diferenciais, esses dados serão valiosos para os formuladores de políticas, desenvolvedores e usuários finais pensando sobre as limitações e o uso apropriado desses algoritmos. "

O estudo foi conduzido por meio do programa Face Recognition Vendor Test (FRVT) do NIST, que avalia algoritmos de reconhecimento facial enviados por desenvolvedores da indústria e acadêmicos em sua capacidade de executar tarefas diferentes. Embora o NIST não teste os produtos comerciais finalizados que fazem uso desses algoritmos, o programa revelou desenvolvimentos rápidos no campo em expansão.

O estudo do NIST avaliou 189 algoritmos de software de 99 desenvolvedores - a maioria da indústria. Ele se concentra em quão bem cada algoritmo individual executa uma das duas tarefas diferentes que estão entre os aplicativos mais comuns de reconhecimento de rosto. A primeira tarefa, confirmar que uma foto corresponde a uma foto diferente da mesma pessoa em um banco de dados, é conhecido como correspondência "um para um" e é comumente usado para trabalho de verificação, como desbloquear um smartphone ou verificar um passaporte. O segundo, determinar se a pessoa na foto tem alguma correspondência em um banco de dados, é conhecida como correspondência "um para muitos" e pode ser usada para identificar uma pessoa de interesse.

Para avaliar o desempenho de cada algoritmo em sua tarefa, a equipe mediu as duas classes de erros que o software pode cometer:falsos positivos e falsos negativos. Um falso positivo significa que o software considerou erroneamente fotos de duas pessoas diferentes para mostrar a mesma pessoa, enquanto um falso negativo significa que o software falhou em combinar duas fotos que, na verdade, mostre a mesma pessoa.

Fazer essas distinções é importante porque a classe de erro e o tipo de pesquisa podem ter consequências muito diferentes, dependendo do aplicativo no mundo real.

"Em uma pesquisa individual, um falso negativo pode ser apenas um inconveniente - você não pode entrar em seu telefone, mas o problema geralmente pode ser corrigido por uma segunda tentativa, "Grother disse." Mas um falso positivo em uma busca um-para-muitos coloca uma correspondência incorreta em uma lista de candidatos que merecem um exame mais aprofundado. "

O que diferencia a publicação da maioria das outras pesquisas de reconhecimento facial é a preocupação com o desempenho de cada algoritmo ao considerar fatores demográficos. Para correspondência um a um, apenas alguns estudos anteriores exploram os efeitos demográficos; para correspondência de um para muitos, nenhum tem.

Para avaliar os algoritmos, a equipe do NIST usou quatro coleções de fotografias contendo 18,27 milhões de imagens de 8,49 milhões de pessoas. Todos vieram de bancos de dados operacionais fornecidos pelo Departamento de Estado, o Departamento de Segurança Interna e o FBI. A equipe não usou nenhuma imagem "extraída" diretamente de fontes da Internet, como mídias sociais ou de vigilância por vídeo.

As fotos nos bancos de dados incluíam informações de metadados indicando a idade do sujeito, sexo, e raça ou país de nascimento. A equipe não apenas mediu os falsos positivos e os falsos negativos de cada algoritmo para ambos os tipos de pesquisa, mas também determinou o quanto essas taxas de erro variaram entre as tags. Em outras palavras, Qual foi o desempenho comparativo do algoritmo em imagens de pessoas de grupos diferentes?

Os testes mostraram uma ampla gama de precisão entre os desenvolvedores, com os algoritmos mais precisos produzindo muito menos erros. Embora o foco do estudo fosse em algoritmos individuais, Grother apontou cinco descobertas mais amplas:

Para correspondência um a um, a equipe observou taxas mais altas de falsos positivos para rostos asiáticos e afro-americanos em relação às imagens de caucasianos. Os diferenciais geralmente variam de um fator de 10 a 100 vezes, dependendo do algoritmo individual. Falsos positivos podem representar uma preocupação de segurança para o proprietário do sistema, pois podem permitir o acesso a impostores.
Entre os algoritmos desenvolvidos nos EUA, houve altas taxas semelhantes de falsos positivos na correspondência um a um para asiáticos, Afro-americanos e grupos nativos (que incluem nativos americanos, Índio americano, Índios do Alasca e ilhas do Pacífico). O grupo demográfico dos índios americanos apresentou as taxas mais altas de falsos positivos.
Contudo, uma exceção notável foi para alguns algoritmos desenvolvidos em países asiáticos. Não houve nenhuma diferença dramática em falsos positivos na correspondência um a um entre rostos asiáticos e caucasianos para algoritmos desenvolvidos na Ásia. Embora Grother tenha reiterado que o estudo do NIST não explora a relação entre causa e efeito, uma possível conexão, e área para pesquisa, é a relação entre o desempenho de um algoritmo e os dados usados para treiná-lo. "Esses resultados são um sinal encorajador de que dados de treinamento mais diversos podem produzir resultados mais equitativos, deve ser possível para os desenvolvedores usarem tais dados, " ele disse.
Para correspondência um para muitos, a equipe observou taxas mais altas de falsos positivos para mulheres afro-americanas. Diferenciais em falsos positivos na correspondência um para muitos são particularmente importantes porque as consequências podem incluir acusações falsas. (Nesse caso, o teste não usou todo o conjunto de fotos, mas apenas um banco de dados do FBI contendo 1,6 milhões de fotos domésticas.)
Contudo, nem todos os algoritmos fornecem essa alta taxa de falsos positivos nos dados demográficos na correspondência um para muitos, e aqueles que são mais justos também estão entre os mais precisos. Este último ponto ressalta uma mensagem geral do relatório:algoritmos diferentes funcionam de maneira diferente.

Qualquer discussão sobre os efeitos demográficos é incompleta se não distinguir entre as tarefas e tipos de reconhecimento facial fundamentalmente diferentes, Grother disse. É importante lembrar essas distinções à medida que o mundo confronta as implicações mais amplas do uso da tecnologia de reconhecimento facial.

Airbus fecha acordos anticorrupção com a França, REINO UNIDO, nós

Híbridos perdem vantagem, mas Edmunds escolhe 5 ainda vale a pena comprar

Eletrônicos