Estudo de novo método usado para preservar a privacidade dos dados do censo dos EUA sugere que a precisão foi prejudicada
Raiz do erro quadrático médio estimado (RMSE) para contagens populacionais de um grupo de raça/etnia, em cada nível geográfico. O RMSE quantifica a magnitude média do erro para uma determinada geografia para uma unidade geográfica específica. Os triângulos para RMSE indicam que o erro quadrático médio estimado foi negativo e, portanto, foi definido como zero. Crédito:Avanços da Ciência (2024). DOI:10.1126/sciadv.adl2524 Uma pequena equipe de cientistas políticos, estatísticos e cientistas de dados da Universidade de Harvard, da Universidade de Nova York e da Universidade de Yale descobriu que, ao mudar para um novo método para proteger melhor a privacidade, o Departamento do Censo dos EUA introduziu fatores que reduzem a precisão em alguns casos. .
Em seu artigo publicado na revista Science Advances , o grupo descreve como analisaram um arquivo fornecido pelos funcionários do Censo para medir a precisão dos dados do censo disponíveis publicamente e seus resultados.
Antes do censo dos EUA de 2020, os funcionários do U.S. Census Bureau preocupados com a privacidade das pessoas que fornecem respostas ao censo, optaram por alterar o método pelo qual garantiam a segurança dos dados.
O método antigo era chamado de “troca”. Envolvia a troca de dados de pessoas que viviam num quarteirão de uma cidade com pessoas de outro quarteirão, evitando assim que as pessoas fossem identificadas com base nos seus dados. O novo método é chamado de “privacidade diferencial” e envolve adicionar o que a Repartição descreve como “ruído” a cada dado coletado.
Neste novo esforço, a equipa de investigação não conseguiu encontrar nenhum caso de uma entidade externa que conduzisse investigação para determinar se o novo método proporcionava de facto mais privacidade ou se os dados processados eram mais ou menos precisos do que quando a troca foi utilizada. Então, eles começaram um por conta própria.
O estudo começou com a equipe de pesquisa solicitando ao Census Bureau que lhes desse acesso ao que é chamado de arquivo de medição barulhenta (NMF) – aquele usado para o censo de 2020. A Repartição negou o pedido, o que levou a equipe a processá-los. Eventualmente, o processo foi arquivado quando a Repartição concordou em dar à equipe o NMF associado ao censo muito menor de 2010 – um censo que foi realizado como forma de testar o novo método e envolveu tanto troca quanto diferenciação.
Os pesquisadores então analisaram esse arquivo como uma forma de estudar o impacto na precisão da mudança para o novo sistema. Ao fazê-lo, descobriram que, em geral, os dois sistemas forneciam precisão aproximadamente igual em larga escala. Mas também encontraram evidências de uma redução na precisão ao nível do bloco, de um tipo que poderia impactar negativamente as minorias e as populações multirraciais.