Um novo estudo do NIST examina a precisão com que as ferramentas de software de reconhecimento facial identificam pessoas de vários sexos, idade e origem racial. Crédito:N. Hanacek / NIST
Com que precisão as ferramentas de software de reconhecimento facial identificam pessoas de vários sexos, idade e origem racial? De acordo com um novo estudo do Instituto Nacional de Padrões e Tecnologia (NIST), a resposta depende do algoritmo no coração do sistema, o aplicativo que o usa e os dados que ele alimenta - mas a maioria dos algoritmos de reconhecimento de rosto exibe diferenciais demográficos. Um diferencial significa que a capacidade de um algoritmo de combinar duas imagens da mesma pessoa varia de um grupo demográfico para outro.
Resultados capturados no relatório, Teste de fornecedor de reconhecimento facial (FRVT), parte 3:efeitos demográficos (NISTIR 8280), destinam-se a informar os formuladores de políticas e a ajudar os desenvolvedores de software a compreender melhor o desempenho de seus algoritmos. A tecnologia de reconhecimento facial inspirou o debate público em parte devido à necessidade de entender o efeito da demografia nos algoritmos de reconhecimento facial.
"Embora seja geralmente incorreto fazer afirmações em algoritmos, encontramos evidências empíricas para a existência de diferenciais demográficos na maioria dos algoritmos de reconhecimento de rosto que estudamos, "disse Patrick Grother, um cientista da computação do NIST e o principal autor do relatório. "Embora não exploremos o que pode causar esses diferenciais, esses dados serão valiosos para os formuladores de políticas, desenvolvedores e usuários finais pensando sobre as limitações e o uso apropriado desses algoritmos. "
O estudo foi conduzido por meio do programa Face Recognition Vendor Test (FRVT) do NIST, que avalia algoritmos de reconhecimento facial enviados por desenvolvedores da indústria e acadêmicos em sua capacidade de executar tarefas diferentes. Embora o NIST não teste os produtos comerciais finalizados que fazem uso desses algoritmos, o programa revelou desenvolvimentos rápidos no campo em expansão.
O estudo do NIST avaliou 189 algoritmos de software de 99 desenvolvedores - a maioria da indústria. Ele se concentra em quão bem cada algoritmo individual executa uma das duas tarefas diferentes que estão entre os aplicativos mais comuns de reconhecimento de rosto. A primeira tarefa, confirmar que uma foto corresponde a uma foto diferente da mesma pessoa em um banco de dados, é conhecido como correspondência "um para um" e é comumente usado para trabalho de verificação, como desbloquear um smartphone ou verificar um passaporte. O segundo, determinar se a pessoa na foto tem alguma correspondência em um banco de dados, é conhecida como correspondência "um para muitos" e pode ser usada para identificar uma pessoa de interesse.
Para avaliar o desempenho de cada algoritmo em sua tarefa, a equipe mediu as duas classes de erros que o software pode cometer:falsos positivos e falsos negativos. Um falso positivo significa que o software considerou erroneamente fotos de duas pessoas diferentes para mostrar a mesma pessoa, enquanto um falso negativo significa que o software falhou em combinar duas fotos que, na verdade, mostre a mesma pessoa.
Fazer essas distinções é importante porque a classe de erro e o tipo de pesquisa podem ter consequências muito diferentes, dependendo do aplicativo no mundo real.
"Em uma pesquisa individual, um falso negativo pode ser apenas um inconveniente - você não pode entrar em seu telefone, mas o problema geralmente pode ser corrigido por uma segunda tentativa, "Grother disse." Mas um falso positivo em uma busca um-para-muitos coloca uma correspondência incorreta em uma lista de candidatos que merecem um exame mais aprofundado. "
O que diferencia a publicação da maioria das outras pesquisas de reconhecimento facial é a preocupação com o desempenho de cada algoritmo ao considerar fatores demográficos. Para correspondência um a um, apenas alguns estudos anteriores exploram os efeitos demográficos; para correspondência de um para muitos, nenhum tem.
Para avaliar os algoritmos, a equipe do NIST usou quatro coleções de fotografias contendo 18,27 milhões de imagens de 8,49 milhões de pessoas. Todos vieram de bancos de dados operacionais fornecidos pelo Departamento de Estado, o Departamento de Segurança Interna e o FBI. A equipe não usou nenhuma imagem "extraída" diretamente de fontes da Internet, como mídias sociais ou de vigilância por vídeo.
As fotos nos bancos de dados incluíam informações de metadados indicando a idade do sujeito, sexo, e raça ou país de nascimento. A equipe não apenas mediu os falsos positivos e os falsos negativos de cada algoritmo para ambos os tipos de pesquisa, mas também determinou o quanto essas taxas de erro variaram entre as tags. Em outras palavras, Qual foi o desempenho comparativo do algoritmo em imagens de pessoas de grupos diferentes?
Os testes mostraram uma ampla gama de precisão entre os desenvolvedores, com os algoritmos mais precisos produzindo muito menos erros. Embora o foco do estudo fosse em algoritmos individuais, Grother apontou cinco descobertas mais amplas:
Qualquer discussão sobre os efeitos demográficos é incompleta se não distinguir entre as tarefas e tipos de reconhecimento facial fundamentalmente diferentes, Grother disse. É importante lembrar essas distinções à medida que o mundo confronta as implicações mais amplas do uso da tecnologia de reconhecimento facial.