Como o modelo de segmentação do Facebook da Cambridge Analyticas realmente funcionava

science >> Ciência > >> Eletrônicos

Como o modelo de segmentação do Facebook da Cambridge Analyticas realmente funcionava - de acordo com a pessoa que o construiu

Com que precisão você pode ter o perfil online? Crédito:Andrew Krasovitckii / Shutterstock.com

O pesquisador cujo trabalho está no centro da análise de dados do Facebook-Cambridge Analytica e do alvoroço da propaganda política revelou que seu método funcionava de maneira muito semelhante ao que a Netflix usa para recomendar filmes.

Em um e-mail para mim, O acadêmico da Universidade de Cambridge, Aleksandr Kogan, explicou como seu modelo estatístico processou dados do Facebook para Cambridge Analytica. A precisão que ele afirma sugere que funciona tão bem quanto os métodos de segmentação eleitoral estabelecidos com base em dados demográficos como raça, idade e sexo.

Se confirmado, O relato de Kogan significaria que a modelagem digital usada pela Cambridge Analytica dificilmente seria a bola de cristal virtual que alguns afirmam. No entanto, os números que Kogan fornece também mostram o que é - e o que não é - realmente possível combinando dados pessoais com aprendizado de máquina para fins políticos.

Em relação a uma preocupação pública importante, no entanto, Os números de Kogan sugerem que as informações sobre as personalidades dos usuários ou "psicográficos" eram apenas uma parte modesta de como o modelo visava os cidadãos. Não era um modelo de personalidade estritamente falando, mas sim um que reduz a demografia, influências sociais, personalidade e tudo mais em um grande nódulo correlacionado. Essa abordagem de absorver toda a correlação e chamar de personalidade parece ter criado uma ferramenta de campanha valiosa, mesmo que o produto vendido não seja exatamente o que foi faturado.

A promessa de segmentação de personalidade

Na esteira das revelações de que os consultores de campanha de Trump, Cambridge Analytica, usaram dados de 50 milhões de usuários do Facebook para direcionar a publicidade política digital durante a eleição presidencial dos EUA de 2016, O Facebook perdeu bilhões em valor de mercado de ações, governos de ambos os lados do Atlântico abriram investigações, e um movimento social nascente está convocando os usuários para #DeleteFacebook.

Mas uma questão chave permaneceu sem resposta:Será que Cambridge Analytica foi realmente capaz de direcionar mensagens de campanha para cidadãos com base em suas características de personalidade - ou mesmo em seus "demônios internos? "como alegou um denunciante da empresa?

Se alguém souber o que Cambridge Analytica fez com seu enorme tesouro de dados do Facebook, seria Aleksandr Kogan e Joseph Chancellor. Foi sua startup Global Science Research que coletou informações de perfil de 270, 000 usuários do Facebook e dezenas de milhões de seus amigos usando um aplicativo de teste de personalidade chamado "thisisyourdigitallife".

Parte da minha própria pesquisa se concentra na compreensão dos métodos de aprendizado de máquina, e meu próximo livro discute como as empresas digitais usam modelos de recomendação para construir públicos. Tive um palpite sobre como funcionava o modelo de Kogan e Chancellor.

Então, enviei um e-mail para Kogan para perguntar. Kogan ainda é pesquisador na Universidade de Cambridge; seu colaborador Chanceler agora trabalha no Facebook. Em uma notável demonstração de cortesia acadêmica, Kogan respondeu.

Sua resposta requer alguns desempacotamento, e alguns antecedentes.

Do prêmio Netflix à "psicometria"

Em 2006, quando ainda era uma empresa de DVD por correio, A Netflix ofereceu uma recompensa de US $ 1 milhão a qualquer pessoa que desenvolvesse uma maneira melhor de fazer previsões sobre a classificação dos filmes dos usuários do que a empresa já havia feito. Um grande concorrente surpresa foi um desenvolvedor de software independente usando o pseudônimo Simon Funk, cuja abordagem básica foi finalmente incorporada às entradas de todas as equipes principais. Funk adaptou uma técnica chamada "decomposição de valores singulares, "condensar as classificações de filmes dos usuários em uma série de fatores ou componentes - essencialmente um conjunto de categorias inferidas, classificados por importância. Como Funk explicou em uma postagem do blog, "Então, por exemplo, uma categoria pode representar filmes de ação, com filmes com muita ação no topo, e filmes lentos na parte inferior, e, correspondentemente, usuários que gostam de filmes de ação no topo, e aqueles que preferem filmes lentos na parte inferior. "

Fatores são categorias artificiais, que nem sempre são como os tipos de categorias que os humanos criariam. O fator mais importante no modelo Netflix inicial de Funk foi definido por usuários que amavam filmes como "Pearl Harbor" e "The Wedding Planner", enquanto também odiavam filmes como "Lost in Translation" ou "Eternal Sunshine of the Spotless Mind". Seu modelo mostrou como o aprendizado de máquina pode encontrar correlações entre grupos de pessoas, e grupos de filmes, que os próprios humanos nunca notariam.

A abordagem geral de Funk usou os 50 ou 100 fatores mais importantes para usuários e filmes para fazer uma estimativa decente de como cada usuário classificaria cada filme. Este método, frequentemente chamada de redução de dimensionalidade ou fatoração de matriz, não era novo. Pesquisadores de ciência política mostraram que técnicas semelhantes usando dados de votação nominal podem prever os votos de membros do Congresso com 90 por cento de precisão. Em psicologia, o modelo dos "Cinco Grandes" também foi usado para prever o comportamento, agrupando questões de personalidade que tendiam a ser respondidas de maneira semelhante.

Ainda, O modelo de Funk foi um grande avanço:permitiu que a técnica funcionasse bem com grandes conjuntos de dados, mesmo aqueles com muitos dados ausentes - como o conjunto de dados Netflix, onde um usuário típico classificou apenas algumas dezenas de filmes entre milhares na biblioteca da empresa. Mais de uma década após o término do concurso do Prêmio Netflix, Métodos baseados em SVD, ou modelos relacionados para dados implícitos, ainda são a ferramenta preferida de muitos sites para prever o que os usuários irão ler, Assistir, ou compre.

Esses modelos podem prever outras coisas, também.

Facebook sabe se você é republicano

Em 2013, Os pesquisadores da Universidade de Cambridge, Michal Kosinski, David Stillwell e Thore Graepel publicaram um artigo sobre o poder preditivo dos dados do Facebook, usando informações coletadas por meio de um teste de personalidade online. A análise inicial deles foi quase idêntica à usada no Prêmio Netflix, usando SVD para categorizar os usuários e coisas que eles "gostaram" nos 100 principais fatores.

O artigo mostrou que um modelo de fator feito apenas com as "curtidas" dos usuários do Facebook foi 95 por cento preciso na distinção entre entrevistados negros e brancos, 93 por cento preciso em distinguir homens de mulheres, e 88 por cento precisos ao distinguir pessoas que se identificaram como gays de homens que se identificaram como heterossexuais. Poderia até distinguir corretamente os republicanos dos democratas 85% das vezes. Também foi útil, embora não seja tão preciso, para prever as pontuações dos usuários no teste de personalidade "Cinco Grandes".

Aleksandr Kogan responde a perguntas na CNN.

Houve um clamor público em resposta; dentro de semanas, o Facebook tornou os gostos dos usuários privados por padrão.

Kogan e Chancellor, também pesquisadores da Universidade de Cambridge na época, estavam começando a usar dados do Facebook para seleção de alvos como parte de uma colaboração com a empresa controladora da Cambridge Analytica, SCL. Kogan convidou Kosinski e Stillwell para se juntarem ao seu projeto, mas não deu certo. Kosinski supostamente suspeitou que Kogan e Chancellor poderiam ter feito a engenharia reversa do modelo de "curtidas" do Facebook para Cambridge Analytica. Kogan negou isso, dizendo que seu projeto "construiu todos os nossos modelos usando nossos próprios dados, coletados usando nosso próprio software. "

O que Kogan e Chancellor realmente fizeram?

Conforme eu acompanhava os desenvolvimentos da história, ficou claro que Kogan e Chancellor haviam de fato coletado muitos de seus próprios dados por meio do aplicativo thisisourdigitallife. Eles certamente poderiam ter construído um modelo SVD preditivo como aquele apresentado na pesquisa publicada de Kosinski e Stillwell.

Então, enviei um e-mail para Kogan perguntando se foi isso que ele fez. Para minha surpresa, ele escreveu de volta.

"Não usamos exatamente SVD, " ele escreveu, observando que SVD pode ter dificuldades quando alguns usuários têm muito mais "curtidas" do que outros. Em vez de, Kogan explicou, "A técnica foi algo que realmente desenvolvemos nós mesmos ... Não é algo que seja de domínio público." Sem entrar em detalhes, Kogan descreveu seu método como "uma abordagem de coocorrência em várias etapas".

Contudo, sua mensagem continuou para confirmar que sua abordagem era de fato semelhante a SVD ou outros métodos de fatoração de matriz, como na competição de prêmios Netflix, e o modelo Kosinki-Stillwell-Graepel do Facebook. A redução da dimensionalidade dos dados do Facebook foi o cerne de seu modelo.

Quão preciso foi?

Kogan sugeriu que o modelo exato usado não importa muito, embora - o que importa é a precisão de suas previsões. De acordo com Kogan, a "correlação entre as pontuações previstas e reais ... foi de cerca de [30 por cento] para todas as dimensões da personalidade." Por comparação, as pontuações anteriores dos cinco grandes de uma pessoa têm cerca de 70 a 80% de precisão na previsão de suas pontuações ao refazer o teste.

As afirmações de precisão de Kogan não podem ser verificadas de forma independente, claro. E qualquer pessoa no meio de um escândalo tão importante pode ter incentivos para subestimar sua contribuição. Em sua aparição na CNN, Kogan explicou a um Anderson Cooper cada vez mais incrédulo que, na verdade, os modelos na verdade não funcionaram muito bem.

Na verdade, a precisão que Kogan afirma parece um pouco baixa, mas plausível. Kosinski, Stillwell e Graepel relataram resultados comparáveis ou ligeiramente melhores, assim como vários outros estudos acadêmicos usando pegadas digitais para prever a personalidade (embora alguns desses estudos tivessem mais dados do que apenas "curtidas" no Facebook). É surpreendente que Kogan e Chancellor se dessem ao trabalho de projetar seu próprio modelo proprietário se as soluções prontas para o uso parecessem igualmente precisas.

Mais importante, no entanto, a precisão do modelo nas pontuações de personalidade permite comparações dos resultados de Kogan com outras pesquisas. Modelos publicados com precisão equivalente na previsão da personalidade são todos muito mais precisos na adivinhação de dados demográficos e variáveis políticas.

Por exemplo, o modelo Kosinski-Stillwell-Graepel SVD semelhante foi 85 por cento preciso em adivinhar a afiliação partidária, mesmo sem usar nenhuma informação de perfil diferente de curtidas. O modelo de Kogan tinha precisão semelhante ou melhor. Adicionar até mesmo uma pequena quantidade de informações sobre amigos ou dados demográficos dos usuários provavelmente aumentaria essa precisão para mais de 90 por cento. Suposições sobre o gênero, raça, a orientação sexual e outras características provavelmente seriam mais de 90% precisas também.

Criticamente, essas suposições seriam especialmente boas para os usuários mais ativos do Facebook - as pessoas que o modelo foi usado principalmente para atingir. Os usuários com menos atividade para analisar provavelmente não estão muito no Facebook de qualquer maneira.

Quando a psicografia é principalmente demográfica

Saber como o modelo é construído ajuda a explicar as declarações aparentemente contraditórias da Cambridge Analytica sobre o papel - ou a falta dele - que perfis de personalidade e psicografia desempenharam em sua modelagem. Eles são todos tecnicamente consistentes com o que Kogan descreve.

Um modelo como o de Kogan forneceria estimativas para todas as variáveis disponíveis em qualquer grupo de usuários. Isso significa que ele estimaria automaticamente as pontuações de personalidade dos Cinco Grandes para cada eleitor. Mas essas pontuações de personalidade são o resultado do modelo, não a entrada. Tudo o que a modelo sabe é que certos gostos do Facebook, e certos usuários, tendem a ser agrupados.

Com este modelo, Cambridge Analytica could say that it was identifying people with low openness to experience and high neuroticism. But the same model, with the exact same predictions for every user, could just as accurately claim to be identifying less educated older Republican men.

Kogan's information also helps clarify the confusion about whether Cambridge Analytica actually deleted its trove of Facebook data, when models built from the data seem to still be circulating, and even being developed further.

The whole point of a dimension reduction model is to mathematically represent the data in simpler form. It's as if Cambridge Analytica took a very high-resolution photograph, resized it to be smaller, and then deleted the original. The photo still exists – and as long as Cambridge Analytica's models exist, the data effectively does too.

Este artigo foi publicado originalmente em The Conversation. Leia o artigo original.