Crédito:Unsplash/CC0 Public Domain
Um estudo sobre os tipos de erros que os humanos cometem ao avaliar imagens pode permitir algoritmos de computador que nos ajudem a tomar melhores decisões sobre informações visuais, como ao ler um raio-X ou moderar conteúdo online.
Pesquisadores de Cornell e instituições parceiras analisaram mais de 16 milhões de previsões humanas sobre se um bairro votou em Joe Biden ou Donald Trump na eleição presidencial de 2020 com base em uma única imagem do Google Street View. Eles descobriram que os humanos como um grupo tiveram um bom desempenho na tarefa, mas um algoritmo de computador foi melhor para distinguir entre Trump e o país de Biden.
O estudo também classificou maneiras comuns pelas quais as pessoas cometem erros e identificou objetos – como picapes e bandeiras americanas – que levaram as pessoas ao erro.
“Estamos tentando entender, onde um algoritmo tem uma previsão mais eficaz do que um humano, podemos usar isso para ajudar o humano ou criar um sistema híbrido homem-máquina melhor que ofereça o melhor dos dois mundos?” disse o primeiro autor J.D. Zamfireescu-Pereira, um estudante de pós-graduação da Universidade da Califórnia em Berkeley.
Ele apresentou o trabalho, intitulado "Trucks Don't Mean Trump:Diagnostics Human Error in Image Analysis", na
2022 Association for Computing Machinery (ACM) Conference on Fairness, Accountability, and Transparency (FAccT).
Recentemente, os pesquisadores deram muita atenção à questão do viés algorítmico, que é quando os algoritmos cometem erros que prejudicam sistematicamente mulheres, minorias raciais e outras populações historicamente marginalizadas.
"Algoritmos podem estragar de uma infinidade de maneiras e isso é muito importante", disse a autora sênior Emma Pierson, professora assistente de ciência da computação no Jacobs Technion-Cornell Institute em Cornell Tech e o Technion com a Cornell Ann S. Bowers Faculdade de Computação e Ciência da Informação. “Mas os próprios humanos são tendenciosos e propensos a erros, e os algoritmos podem fornecer diagnósticos muito úteis sobre como as pessoas fazem besteira”.
Os pesquisadores usaram dados anônimos de um questionário interativo do New York Times que mostrou aos leitores instantâneos de 10.000 locais em todo o país e pediram que adivinhassem como o bairro votou. Eles treinaram um algoritmo de aprendizado de máquina para fazer a mesma previsão, fornecendo um subconjunto de imagens do Google Street View e fornecendo resultados de votação do mundo real. Em seguida, eles compararam o desempenho do algoritmo nas imagens restantes com o dos leitores.
No geral, o algoritmo de aprendizado de máquina previu a resposta correta em cerca de 74% das vezes. Quando calculados juntos para revelar "a sabedoria da multidão", os humanos estavam certos 71% das vezes, mas os humanos individuais pontuaram apenas cerca de 63%.
As pessoas geralmente escolhiam Trump incorretamente quando a vista da rua mostrava picapes ou céu aberto. Em um artigo do New York Times, os participantes observaram que as bandeiras americanas também os tornavam mais propensos a prever Trump, embora os bairros com bandeiras fossem divididos igualmente entre os candidatos.
Os pesquisadores classificaram os erros humanos como resultado de viés, variância ou ruído – três categorias comumente usadas para avaliar erros de algoritmos de aprendizado de máquina. O viés representa erros na sabedoria da multidão – por exemplo, sempre associando picapes a Trump. A variação engloba julgamentos errados individuais – quando uma pessoa faz uma má escolha, mesmo que a multidão estivesse certa, em média. Ruído é quando a imagem não fornece informações úteis, como uma casa com uma placa de Trump em um bairro predominantemente eleitor de Biden.
Ser capaz de dividir os erros humanos em categorias pode ajudar a melhorar a tomada de decisões humanas. Tome radiologistas lendo raios-X para diagnosticar uma doença, por exemplo. Se houver muitos erros devido ao viés, os médicos podem precisar de retreinamento. Se, em média, o diagnóstico for bem-sucedido, mas houver variação entre os radiologistas, uma segunda opinião pode ser necessária. E se houver muito ruído enganoso nos raios X, pode ser necessário um teste de diagnóstico diferente.
Em última análise, este trabalho pode levar a uma melhor compreensão de como combinar a tomada de decisão humana e da máquina para sistemas humanos no circuito, onde os humanos dão entrada em processos automatizados.
“Você quer estudar o desempenho de todo o sistema juntos – humanos mais o algoritmo, porque eles podem interagir de maneiras inesperadas”, disse Pierson.
+ Explorar mais Confiar em conselhos algorítmicos de computadores pode nos cegar para erros, diz estudo