• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Os riscos de privacidade da compilação de dados de mobilidade

    Os pesquisadores do MIT descobriram que a prática crescente de compilar conjuntos de dados massivos sobre os padrões de movimento das pessoas para o planejamento urbano e pesquisa de desenvolvimento pode, na verdade, colocar os dados privados das pessoas em risco - mesmo que esses dados sejam anônimos. Crédito:Massachusetts Institute of Technology

    Um novo estudo realizado por pesquisadores do MIT descobriu que a prática crescente de compilar em massa, Conjuntos de dados anônimos sobre os padrões de movimento das pessoas é uma faca de dois gumes:embora possa fornecer insights profundos sobre o comportamento humano para pesquisa, também pode colocar os dados privados das pessoas em risco.

    Empresas, pesquisadores, e outras entidades estão começando a coletar, armazenar, e processar dados anônimos que contêm "carimbos de localização" (coordenadas geográficas e carimbos de hora) dos usuários. Os dados podem ser obtidos de registros de telefones celulares, transações de cartão de crédito, cartões inteligentes de transporte público, Contas do Twitter, e aplicativos móveis. A fusão desses conjuntos de dados pode fornecer informações valiosas sobre como os humanos viajam, por exemplo, para otimizar transporte e planejamento urbano, entre outras coisas.

    Mas com o big data vêm grandes problemas de privacidade:os selos de localização são extremamente específicos para indivíduos e podem ser usados ​​para propósitos nefastos. Uma pesquisa recente mostrou que, dados apenas alguns pontos selecionados aleatoriamente em conjuntos de dados de mobilidade, alguém poderia identificar e aprender informações confidenciais sobre indivíduos. Com conjuntos de dados de mobilidade mesclados, isso se torna ainda mais fácil:um agente pode potencialmente combinar as trajetórias dos usuários em dados anônimos de um conjunto de dados, com dados anonimizados em outro, para desmascarar os dados anônimos.

    Em um artigo publicado hoje em Transações IEEE em Big Data , os pesquisadores do MIT mostram como isso pode acontecer na primeira análise da chamada "capacidade de correspondência" do usuário em dois conjuntos de dados em grande escala de Cingapura, um de uma operadora de rede móvel e um de um sistema de transporte local.

    Os pesquisadores usam um modelo estatístico que rastreia os carimbos de localização dos usuários em ambos os conjuntos de dados e fornece uma probabilidade de que os pontos de dados em ambos os conjuntos venham da mesma pessoa. Em experimentos, os pesquisadores descobriram que o modelo pode corresponder a cerca de 17 por cento dos indivíduos em dados de uma semana, e mais de 55 por cento dos indivíduos após um mês de dados coletados. O trabalho demonstra uma eficiência, maneira escalonável de combinar trajetórias de mobilidade em conjuntos de dados, o que pode ser uma vantagem para a pesquisa. Mas, os pesquisadores avisam, tais processos podem aumentar a possibilidade de retirar a anonimato dos dados reais do usuário.

    "Como pesquisadores, acreditamos que trabalhar com conjuntos de dados em grande escala pode permitir a descoberta de insights sem precedentes sobre a sociedade humana e a mobilidade, permitindo-nos planejar melhor as cidades. No entanto, é importante mostrar se a identificação é possível, para que as pessoas possam estar cientes dos riscos potenciais do compartilhamento de dados de mobilidade, "diz Daniel Kondor, um pós-doutorado no Grupo de Mobilidade Urbana do Futuro na Aliança para Pesquisa e Tecnologia de Cingapura-MIT.

    "Ao publicar os resultados - e, em particular, as consequências da anonimização dos dados - nos sentimos um pouco como hackers 'chapéu branco' ou 'éticos', "acrescenta o co-autor Carlo Ratti, professor da prática no Departamento de Estudos Urbanos e Planejamento do MIT e diretor do Senseable City Lab do MIT. "Sentimos que era importante alertar as pessoas sobre essas novas possibilidades [de fusão de dados] e [considerar] como poderíamos regulá-las."

    Os co-autores do estudo são Behrooz Hashemian, um pós-doutorado no Senseable City Lab, e Yves-Alexandre de Mondjoye do Departamento de Computação e Instituto de Ciência de Dados do Imperial College London.

    Eliminando falsos positivos

    Para entender como funciona a correspondência de carimbos de localização e potencial deseanonimização, considere este cenário:"Eu estava na Ilha Sentosa, em Cingapura, há dois dias, veio ao aeroporto de Dubai ontem, e hoje estou na praia de Jumeirah em Dubai. É altamente improvável que a trajetória de outra pessoa seja exatamente a mesma. Resumidamente, se alguém tiver minhas informações anônimas de cartão de crédito, e talvez meus dados de localização abertos do Twitter, eles poderiam, então, retirar o anonimato dos dados do meu cartão de crédito, "Ratti diz.

    Existem modelos semelhantes para avaliar a deseanonimização dos dados. Mas esses usam abordagens computacionalmente intensivas para re-identificação, o que significa mesclar dados anônimos com dados públicos para identificar indivíduos específicos. Esses modelos funcionaram apenas em conjuntos de dados limitados. Os pesquisadores do MIT, em vez disso, usaram uma abordagem estatística mais simples - medindo a probabilidade de falsos positivos - para prever com eficiência a correspondência entre dezenas de usuários em conjuntos de dados massivos.

    Em seu trabalho, os pesquisadores compilaram dois conjuntos de dados anônimos de "baixa densidade" - alguns registros por dia - sobre o uso de telefones celulares e transporte pessoal em Cingapura, registrados ao longo de uma semana em 2011. Os dados móveis vieram de uma grande operadora de rede móvel e compreendiam carimbos de data / hora e coordenadas geográficas em mais de 485 milhões de registros de mais de 2 milhões de usuários. Os dados de transporte continham mais de 70 milhões de registros com carimbos de data / hora para indivíduos se movendo pela cidade.

    A probabilidade de um determinado usuário ter registros em ambos os conjuntos de dados aumentará junto com o tamanho dos conjuntos de dados mesclados, mas o mesmo acontecerá com a probabilidade de falsos positivos. O modelo dos pesquisadores seleciona um usuário de um conjunto de dados e encontra um usuário do outro conjunto de dados com um grande número de carimbos de localização correspondentes. Simplificando, conforme o número de pontos correspondentes aumenta, a probabilidade de uma correspondência falso-positiva diminui. Depois de combinar um certo número de pontos ao longo de uma trajetória, o modelo descarta a possibilidade de a correspondência ser um falso positivo.

    Concentrando-se em usuários típicos, eles estimaram uma taxa de sucesso de matchability de 17 por cento ao longo de uma semana de dados compilados, e cerca de 55 por cento por quatro semanas. Essa estimativa salta para cerca de 95 por cento com dados compilados ao longo de 11 semanas.

    Os pesquisadores também estimaram quanta atividade é necessária para corresponder à maioria dos usuários durante uma semana. Olhando para usuários com entre 30 e 49 registros de transporte pessoal, e cerca de 1, 000 registros móveis, eles estimaram mais de 90 por cento de sucesso com uma semana de dados compilados. Adicionalmente, combinando os dois conjuntos de dados com traços de GPS - regularmente coletados ativa e passivamente por aplicativos de smartphone - os pesquisadores estimaram que poderiam corresponder a 95 por cento das trajetórias individuais, usando menos de uma semana de dados.

    Melhor privacidade

    Com seu estudo, os pesquisadores esperam aumentar a consciência pública e promover regulamentações mais rígidas para o compartilhamento de dados do consumidor. "Todos os dados com carimbos de localização (que são a maioria dos dados coletados hoje) são potencialmente muito confidenciais e todos devemos tomar decisões mais informadas sobre com quem os compartilhamos, "Ratti diz." Precisamos continuar pensando sobre os desafios do processamento de dados em grande escala, sobre indivíduos, e a maneira certa de fornecer garantias adequadas para preservar a privacidade. "

    Para esse fim, Ratti, Kondor, e outros pesquisadores têm trabalhado extensivamente nas questões éticas e morais dos big data. Em 2013, o Senseable City Lab no MIT lançou uma iniciativa chamada "Engaging Data, "que envolve líderes do governo, grupos de direitos de privacidade, academia, e negócios, que estudam como os dados de mobilidade podem e devem ser usados ​​pelas empresas de coleta de dados de hoje.

    "O mundo hoje está inundado de big data, "Kondor diz." Em 2015, a humanidade produziu tanta informação quanto foi criada em todos os anos anteriores da civilização humana. Embora os dados signifiquem um melhor conhecimento do ambiente urbano, atualmente, grande parte dessa riqueza de informações é mantida por apenas algumas empresas e instituições públicas que sabem muito sobre nós, embora saibamos tão pouco sobre eles. Precisamos ter cuidado para evitar monopólios e uso indevido de dados. "

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com