p As empresas de tecnologia podem usar privacidade diferencial para coletar e compartilhar dados agregados sobre os hábitos do usuário, mantendo a privacidade individual. Crédito:Tim Snell / Flickr, CC BY-ND
p Não é segredo que grandes empresas de tecnologia como o Facebook, Google, A Apple e a Amazon estão cada vez mais se infiltrando em nossas interações pessoais e sociais para coletar grandes quantidades de dados sobre nós todos os dias. Ao mesmo tempo, violações de privacidade no ciberespaço costumam ser notícia de primeira página. p Então, como a privacidade deve ser protegida em um mundo onde os dados são coletados e compartilhados com velocidade e engenhosidade crescentes?
p A privacidade diferencial é um novo modelo de segurança cibernética que os proponentes afirmam poder proteger os dados pessoais muito melhor do que os métodos tradicionais.
p A matemática em que se baseia foi desenvolvida há 10 anos, e o método foi adotado pela Apple e pelo Google nos últimos anos.
p
O que é privacidade diferencial?
p A privacidade diferencial possibilita que empresas de tecnologia coletem e compartilhem informações agregadas sobre os hábitos do usuário, ao mesmo tempo em que mantém a privacidade de usuários individuais.
p Por exemplo, digamos que você queira mostrar os trajetos mais populares que as pessoas fazem para caminhar em um parque. Você rastreia as rotas de 100 pessoas que caminham regularmente pelo parque, e se andam no caminho ou na grama.
p Mas, em vez de compartilhar as pessoas específicas de cada rota, você compartilha os dados agregados coletados ao longo do tempo. As pessoas que veem seus resultados podem saber que 60 em cada 100 pessoas preferem pegar um atalho na grama, mas não quais 60 pessoas.
p
Por que precisamos disso?
p Muitos dos governos do mundo têm políticas rígidas sobre como as empresas de tecnologia coletam e compartilham dados de usuários. As empresas que não seguirem as regras podem enfrentar multas pesadas. Um tribunal belga ordenou recentemente que o Facebook pare de coletar dados sobre os hábitos de navegação dos usuários em sites externos, ou multas de € 250, 000 por dia.
p Para muitas empresas, especialmente multinacionais que operam em diferentes jurisdições, isso os deixa em uma posição delicada quando se trata de coleta e uso de dados de clientes.
p Por um lado, essas empresas precisam dos dados dos usuários para que possam fornecer serviços de alta qualidade que beneficiem os usuários, como recomendações personalizadas. Por outro lado, eles podem enfrentar cobranças se coletarem muitos dados do usuário, ou se eles tentam mover dados de uma jurisdição para outra.
p As ferramentas tradicionais de preservação da privacidade, como a criptografia, não podem resolver esse dilema, pois impede que as empresas de tecnologia acessem os dados. E o anonimato reduz o valor dos dados - um algoritmo não pode fornecer recomendações personalizadas se não souber quais são seus hábitos.
p Crédito:Marco Verch / Flickr, CC BY
p
Como funciona?
p Vamos continuar com o exemplo de percursos pedestres em um parque. Se você conhece a identidade das pessoas incluídas no estudo, mas você não sabe quem escolheu qual caminho, então você pode presumir que a privacidade está protegida. Mas pode não ser o caso.
p Digamos que alguém que esteja visualizando seus dados queira verificar se Bob prefere andar na grama ou no caminho. Eles obtiveram informações básicas sobre as outras 99 pessoas no estudo, o que lhes diz que 40 pessoas preferem caminhar no caminho e 59 preferem caminhar pela grama. Portanto, eles podem deduzir que Bob, quem é a 100ª pessoa no banco de dados, é a 60ª pessoa que prefere caminhar na grama.
p Este tipo de ataque é chamado de ataque diferenciado, e é muito difícil se defender, pois você não pode controlar a quantidade de conhecimento prévio que alguém pode obter. A privacidade diferencial tem como objetivo a defesa contra esse tipo de ataque.
p Alguém deduzindo sua rota de caminhada pode não parecer muito sério, mas se você substituir percursos pedestres por resultados de testes de HIV, então você pode ver que há potencial para uma invasão séria de privacidade.
p O modelo de privacidade diferencial garante que, mesmo que alguém tenha informações completas sobre 99 de 100 pessoas em um conjunto de dados, eles ainda não conseguem deduzir as informações sobre a pessoa final.
p O principal mecanismo para conseguir isso é adicionar ruído aleatório aos dados agregados. No exemplo do caminho, você pode dizer que o número de pessoas que prefere cruzar a grama é 59 ou 61, em vez do número exato de 60. O número incorreto pode preservar a privacidade de Bob, mas terá muito pouco impacto no padrão:cerca de 60% das pessoas preferem pegar um atalho.
p O ruído é cuidadosamente projetado. Quando a Apple empregou privacidade diferencial no iOS 10, ele adicionou ruído às entradas individuais do usuário. Isso significa que ele pode rastrear, por exemplo, os emojis usados com mais frequência, mas o uso de emoji de qualquer usuário individual é mascarado.
p Cynthia Dwork, o inventor da privacidade diferencial, propôs maravilhosas provas matemáticas de quanto ruído é suficiente para cumprir o requisito de privacidade diferencial.
p
Quais são suas aplicações práticas?
p A privacidade diferencial pode ser aplicada a tudo, desde sistemas de recomendação a serviços baseados em localização e redes sociais. A Apple usa privacidade diferenciada para reunir percepções de uso anônimas de dispositivos como iPhones, iPads e Macs. O método é amigável, e legalmente claro.
p A privacidade diferencial também permite que uma empresa como a Amazon acesse suas preferências de compras personalizadas, enquanto oculta informações confidenciais sobre sua lista de compras histórica. O Facebook pode usá-lo para coletar dados comportamentais para publicidade direcionada, sem violar as políticas de privacidade de um país.
p
Como poderia ser usado no futuro?
p Diferentes países têm diferentes políticas de privacidade, e documentos confidenciais atualmente precisam ser verificados manualmente antes de serem transferidos de um país para outro. Isso é demorado e caro.
p Recentemente, uma equipe da Deakin University desenvolveu uma tecnologia de privacidade diferenciada para automatizar processos de privacidade em comunidades de compartilhamento de nuvem em vários países.
p Eles propõem o uso de fórmulas matemáticas para modelar as leis de privacidade de cada país que podem ser traduzidas em "middleware" (software) para garantir a conformidade dos dados. Empregar a privacidade diferencial dessa forma pode proteger a privacidade dos usuários e resolver uma dor de cabeça de compartilhamento de dados para empresas de tecnologia. p Este artigo foi publicado originalmente em The Conversation. Leia o artigo original.