Conjuntos de dados alterados ainda podem fornecer integridade estatística e preservar a privacidade

Redes sintéticas podem aumentar a disponibilidade de alguns dados enquanto ainda protegem a privacidade individual ou institucional, de acordo com um estatístico da Penn State.

"Meu principal interesse é desenvolver uma metodologia que permita um compartilhamento mais amplo de dados confidenciais de uma forma que possa auxiliar na descoberta científica, "disse Aleksandra Slavkovic, professor de estatística e reitor associado de pós-graduação, Eberly College of Science, Estado de Penn. "Ser capaz de compartilhar dados confidenciais com risco quantificável mínimo para a descoberta de informações confidenciais e ainda garantir a integridade e precisão estatística, é o objetivo. "

Slavkovic encontrou soluções para este problema de privacidade de dados por meio de colaborações interdisciplinares, especialmente com cientistas sociais e de computação. Sua pesquisa se concentra em vários dados, incluindo dados de rede que capturam informações de relacionamento entre entidades, como indivíduos ou instituições. Ela relatou suas abordagens para fornecer redes sintéticas que satisfaçam uma noção de privacidade diferencial hoje (16 de fevereiro) durante a reunião anual de 2019 da Associação Americana para o Avanço da Ciência em Washington, D.C.

A privacidade diferencial fornece uma garantia matematicamente comprovável do nível de perda de privacidade dos indivíduos.

Os cientistas querem acesso aos dados coletados por outras pessoas para suas pesquisas, mas esse acesso também pode comprometer a privacidade pessoal, mesmo após a remoção dos chamados dados de identificação pessoal.

"Uma abundância de dados auxiliares é o principal culpado, "disse Slavkovic." Com os avanços metodológicos e tecnológicos na coleta de dados e vinculação de registros, acesso mais fácil a uma variedade de fontes de dados que podem ser vinculadas a um conjunto de dados em mãos, e requisitos de agências de financiamento para compartilhar dados, os riscos para a privacidade dos dados estão aumentando. Mas, encontrar boas soluções para gerenciar a perda de privacidade é essencial para permitir descobertas científicas confiáveis. "

Informações publicamente disponíveis de um ensaio de drogas para o HIV, por exemplo, indicaria quem estava no grupo de tratamento e quem estava no grupo de controle. O grupo de tratamento conteria apenas pessoas com diagnóstico de HIV e, embora os proprietários dos dados ocultassem detalhes pessoais desse conjunto de dados, algumas informações de identificação permaneceriam. Porque tanta informação está hoje disponível online nas redes sociais e em outros conjuntos de dados, é possível conectar os pontos e identificar pessoas, potencialmente revelando seu status de HIV.

"Técnicas para ligar dois conjuntos de dados, digamos, registros eleitorais e dados de seguro saúde, melhoraram muito, "disse Slavkovic." Em uma das primeiras descobertas, Latanya Sweeny (agora em Harvard) mostrou que, ao vincular esse tipo de dados, você pode identificar 87 por cento das pessoas no Censo dos EUA de 1990 com base na data de nascimento, sexo e código postal de 5 dígitos. Mais recentemente, pesquisadores usaram tweets e metadados do Twitter associados para mostrar que eles podem identificar usuários com 96,7 por cento de precisão. "

Slavkovic observa que não são apenas as pessoas ou instituições cujos dados estão contidos nos bancos de dados, mas que pessoas fora do banco de dados também podem sofrer invasão de privacidade, diretamente ou por associação. As ligações entre as informações em um conjunto de dados e as informações nas redes sociais podem levar a uma violação séria da privacidade - algo como o status do HIV ou orientação sexual pode ter graves repercussões se for revelado.

Embora a privacidade seja importante, os conjuntos de dados coletados constituem uma fonte essencial de informações para os pesquisadores. Atualmente, em alguns casos, quando os dados são excepcionalmente confidenciais, os pesquisadores devem ir fisicamente aos repositórios de dados para fazer suas pesquisas, tornando a pesquisa mais difícil e cara.

Slavkovic está interessado em dados de rede. Informações que mostram a interconexão de pessoas ou instituições - os nós - e as conexões entre os nós. Sua abordagem é criar ligeiramente alterado, conjuntos de dados de rede espelhados com alguns dos nós movidos, conexões deslocadas ou bordas alteradas.

“O objetivo é criar novas redes que satisfaçam os rigorosos requisitos de privacidade diferenciados e, ao mesmo tempo, capturem a maioria das características estatísticas da rede original, "disse Slavkovic.

Esses conjuntos de dados sintéticos podem ser suficientes para que alguns pesquisadores satisfaçam suas necessidades de pesquisa. Para os outros, seria suficiente testar suas abordagens e hipóteses antes de ter que ir para o local de armazenamento de dados. Os pesquisadores podem testar o código, faça pesquisas exploratórias e talvez análises básicas enquanto espera pela permissão para usar os dados originais em seu site de repositório.

"Não podemos atender às demandas de todas as análises estatísticas com o mesmo tipo de dados alterados, "disse Slavkovic." Algumas pessoas vão precisar dos dados originais, mas outros podem percorrer um longo caminho com dados sintéticos, como redes sintéticas. "

Potencial lapso de privacidade encontrado nos dados do censo norte-americano de 2010

O algoritmo OpenAIs GPT-2 é bom em tricotar notícias falsas

Eletrônicos

Bug de dia zero encontrado no Windows 10, divulgado no Twitter

Chegamos ao Peak Car?

Eversource desiste do projeto hidrelétrico Northern Pass

Ciência

A absorção oceânica de dióxido de carbono compensa as emissões das infiltrações de metano do fundo do mar

Avanço da inteligência artificial dá aviso prévio mais longo sobre questões de ozônio

Um trilhão de voltas de bytes polarizados de redes de luz terahertz