p Tanques destruídos em frente a uma mesquita em Azaz, Síria, em 2012. Crédito:Christiaan Triebert via Wikimedia Commons
p Pesquisadores da Rice University e da Duke University estão usando as ferramentas de estatística e ciência de dados em colaboração com o Human Rights Data Analysis Group (HRDAG) para estimar com precisão e eficiência o número de vítimas identificadas mortas na guerra civil síria. p Em um artigo disponível online e com publicação na edição de junho da
Anais de Estatística Aplicada , os cientistas relatam um esforço de quatro anos para combinar um método de indexação de dados denominado "hashing com estimativa estatística". O novo método produz estimativas em tempo real de identificou as vítimas com uma margem de erro muito menor do que os métodos estatísticos existentes para encontrar registros duplicados em bancos de dados.
p "Descartar registros duplicados é fácil se todos os dados estiverem limpos - os nomes estão completos, grafias corretas, as datas são exatas, etc, "disse o co-autor do estudo Beidi Chen, um estudante de pós-graduação da Rice em ciência da computação. "Os dados de vítimas de guerra não são assim. As pessoas usam apelidos. Às vezes, as datas são incluídas em um banco de dados, mas faltam em outro. É um exemplo clássico do que chamamos de conjunto de dados 'ruidoso'. O desafio é encontrar uma maneira de estimar com precisão o número de registros únicos, apesar desse ruído. "
p Usando registros de quatro bancos de dados de pessoas mortas na guerra na Síria, Chen, A estatística e especialista em aprendizado de máquina da Duke, Rebecca Steorts, e o cientista da computação do Rice, Anshumali Shrivastava, estimaram que havia 191, 874 indivíduos únicos documentados de março de 2011 a abril de 2014. Isso é muito próximo da estimativa de 191, 369 compilado em 2014 por HRDAG, uma organização sem fins lucrativos que ajuda a construir cientificamente defensável, argumentos baseados em evidências de violações dos direitos humanos.
p Mas embora a estimativa do HRDAG tenha se baseado nos esforços meticulosos de trabalhadores humanos para eliminar cuidadosamente os registros duplicados em potencial, hashing com estimativa estatística provou ser mais rápido, mais fácil e menos caro. Os pesquisadores disseram que o hashing também tem a vantagem importante de um intervalo de confiança nítido:o intervalo de erro é mais ou menos 1, 772, ou menos de 1 por cento do número total de vítimas.
p "A grande vantagem desse método é que podemos calcular rapidamente o número provável de elementos únicos em um conjunto de dados com muitas duplicatas, "disse Patrick Ball, Diretor de pesquisa do HRDAG. "Podemos fazer muito com esta estimativa."
p Shrivastava disse que a precisão da estimativa de hashing se deve à técnica usada para indexar os registros de vítimas. O hash envolve a conversão de um registro de dados completo - um nome, encontro, local da morte e gênero no caso de cada vítima da guerra na Síria - em um número chamado hash. Hashes são produzidos por um algoritmo que considera as informações alfanuméricas em um registro, e eles são armazenados em uma tabela hash que funciona como o índice de um livro. Quanto mais semelhança textual existe entre dois registros, quanto mais próximos seus hashes estiverem na mesa.
p "Nosso método - estimativa de entidade única - pode ser útil além do conflito sírio, "disse Steorts, professor assistente de ciência estatística na Duke.
p Ela disse que o algoritmo e a metodologia podem ser usados para registros médicos, estatísticas oficiais e aplicações da indústria.
p "À medida que coletamos mais e mais dados, a duplicação está se tornando um problema mais oportuno e socialmente importante, "Steorts disse." Os problemas de resolução de entidades precisam ser escalonados para milhões e bilhões de registros. Claro, a maneira mais precisa de localizar registros duplicados é ter um especialista para verificar cada registro. Mas isso é impossível para grandes conjuntos de dados, já que o número de pares que precisam ser comparados cresce dramaticamente conforme o número de registros aumenta. "
p Por exemplo, uma análise de registro por registro de todos os quatro bancos de dados da guerra na Síria envolveria cerca de 63 bilhões de comparações em pares, ela disse.
p Shrivastava, professor assistente de ciência da computação na Rice, disse, "Se você fizer suposições, como datas próximas podem ser duplicadas, você pode reduzir o número de comparações necessárias, mas toda suposição vem com um viés, e, em última análise, você deseja uma estimativa imparcial. Uma abordagem estatística que evita viés é a amostragem aleatória. Então, talvez escolha 1 milhão de pares aleatórios entre os 63 bilhões, veja quantos são duplicados e, em seguida, aplique essa taxa a todo o conjunto de dados. Isso produz uma estimativa imparcial, qual é bom, mas a probabilidade de encontrar duplicatas puramente aleatórias é bastante baixa, e isso dá uma grande variação.
p "Nesse caso, por exemplo, a amostragem aleatória também pode estimar as contagens documentadas em cerca de 191, 000, "disse ele." Mas não podia nos dizer com certeza se a contagem era de 176, 000 ou 216, 000 ou algum número intermediário.
p "Em trabalho recente, meu laboratório mostrou que algoritmos de hash que foram originalmente projetados para fazer pesquisa também podem ser usados como amostradores adaptativos que atenuam precisamente a alta variância associada à amostragem aleatória, "Shrivastava disse.
p "Resolver cada duplicata parece muito atraente, " ele disse, "mas é a maneira mais difícil de estimar o número de entidades únicas. A nova teoria de amostragem adaptativa com hashing nos permite estimar diretamente contagens de entidades únicas com eficiência, com alta confiança, sem resolver as duplicatas. "
p "No fim do dia, tem sido fenomenal fazer progresso metodológico e algorítmico motivado por um problema tão importante, "Steorts disse." HRDAG abriu o caminho. Nosso objetivo e esperança é que nossos esforços sejam úteis para o trabalho deles. "
p Shrivastava e Steorts disseram que estão planejando pesquisas futuras para aplicar a técnica de hashing para aproximação de entidade única a outros tipos de conjuntos de dados.