Crédito CC0:domínio público
Enquanto você lê isso, cocaína, generosidades, e outros produtos e serviços ilícitos estão sendo comprados e vendidos em dezenas de mercados anônimos online. Esses mercados são difíceis de encerrar porque existem em redes que estão enterradas em camadas de criptografia, tornando extremamente difícil determinar a identidade das pessoas envolvidas.
Para piorar a situação para as autoridades, alguns vendedores prolíficos evitarão o direcionamento operando várias contas que parecem ser vendedores individuais com quantidades menores de produtos. As agências de aplicação da lei ficam com dores de cabeça, mas eles não são os únicos.
"Quando os vendedores usam várias contas, é muito difícil para os pesquisadores obter uma imagem precisa de como esses mercados realmente se parecem, "diz Xiao Hui Tai, um ex-Ph.D. do CyLab estudante do Departamento de Estatística e Ciência de Dados. "Os pesquisadores e as autoridades policiais gostariam de saber os verdadeiros tamanhos desses mercados clandestinos."
Em um estudo apresentado na Conferência de Mineração de Dados e Descoberta de Conhecimento (KDD), Tai se associou a dois outros pesquisadores para desenvolver um algoritmo capaz de detectar quando contas aparentemente diferentes pertencem ao mesmo vendedor. A equipe testou seu algoritmo em oito anos de dados coletados de uma dúzia de mercados anônimos online.
"Nosso algoritmo detectou mais de 20, 000 contas pertencentes a cerca de 15, 000 vendedores individuais, "Disse Tai." Algumas dessas pessoas operavam entre duas e 11 contas. "
O algoritmo funcionava extraindo informações da conta - coisas como nomes de contas, produtos vendidos por essas contas, preços, de onde as contas eram enviadas e recebidas, e os tipos de palavras usadas nos perfis das contas - e comparando-as umas com as outras. Se mais duas contas compartilharam características semelhantes acima de um certo limite, o algoritmo os combinou com o mesmo vendedor.
O algoritmo também extraiu a chave PGP de uma conta - um código único que permite aos compradores criptografar e autenticar as comunicações com os vendedores. Embora estudos anteriores tenham usado chaves PGP para associar contas a vendedores, O estudo de Tai combinou-o com as características descritas acima para uma correspondência mais precisa.
Por exemplo, o algoritmo detectou uma coleção de contas que tinham a mesma chave PGP, mas rotulou todos como sendo administrados por vendedores diferentes porque as outras informações nessas contas eram muito diferentes. Acontece que a Polícia Nacional Holandesa confiscou essas contas e postou a mesma chave PGP para todas elas; se alguém tentou se comunicar com a conta do vendedor, a polícia seria capaz de decifrá-lo.
"Se fôssemos usar apenas chaves PGP para combinar contas, teríamos pensado que tudo isso pertencia à mesma pessoa, "Disse Tai." Mas, na verdade, o modelo nos assegurou que eles não eram os mesmos. "
Muitas vezes, Tai disse, contas iriam se passar por outras contas operadas por vendedores diferentes, usando textos semelhantes em seus perfis. A falsificação de identidade permitiria que uma conta pegasse carona na boa reputação de outra como vendedora.
"Em um caso, um perfil de conta lido, 'Há uma conta lá fora que afirma ser nós, mas eles estão apenas se passando por nós, '", Disse Tai." Usando informações que não sejam apenas o texto do perfil, o modelo foi capaz de determinar se as contas pertenciam a diferentes vendedores. "
No fim, Tai disse, um dos principais objetivos da aplicação da lei é saber quem são as pessoas por trás dessas contas, e o algoritmo de correspondência é um passo para atingir esse objetivo.
"Quando você consegue capturar várias informações de contas diferentes e dizer que pertencem à mesma pessoa, "Tai disse, "... então você pode combinar todas essas informações para ajudar a gerar pistas investigativas."