Para combinar usuários de fóruns diferentes que provavelmente são a mesma pessoa, um algoritmo calcula semelhanças em perfis, como seus nomes de usuário; no conteúdo, como frases semelhantes; e em sua rede, como a comunidade com a qual eles interagem. Crédito:Massachusetts Institute of Technology
Abaixo da superfície da web, a forma pública da Internet que você usa diariamente para verificar e-mails ou ler artigos de notícias, existe uma "teia negra" oculta. Host para anônimo, sites protegidos por senha, a dark web é onde os mercados criminosos prosperam na publicidade e venda de armas, drogas, e pessoas traficadas. As agências de aplicação da lei trabalham continuamente para interromper essas atividades, mas os desafios que eles enfrentam ao investigar e processar as pessoas do mundo real por trás dos usuários que postam nesses sites são enormes.
"A natureza pop-up dos mercados dark-web torna o rastreamento de seus participantes e suas atividades extremamente difícil, "diz Charlie Dagli, um pesquisador no Grupo de Tecnologia e Sistemas de Inteligência Artificial do Laboratório Lincoln do MIT. Dagli está se referindo à rapidez com que os mercados da dark web fecham (porque são hackeados, invadido, abandonado, ou configurado como um "esquema de saída" em que o site é encerrado intencionalmente depois que os clientes pagam por pedidos não atendidos) e novos pedidos aparecem. A curta vida desses mercados, de alguns meses a alguns anos, impedir esforços para identificar seus usuários.
Para superar este desafio, O Lincoln Laboratory está desenvolvendo novas ferramentas de software para analisar dados de superfície e dark web.
Essas ferramentas estão aproveitando o único benefício que esse problema tipo whack-a-mole apresenta - as conexões que vendedores e compradores mantêm em várias camadas da web, da superfície ao escuro, e em fóruns da dark web. "Essa troca constante entre sites agora é uma parte estabelecida de como operam os mercados de dark web, "Dagli diz.
Os usuários estão criando novos perfis constantemente. Embora eles possam não estar usando os mesmos nomes de usuário de site para site, eles estão mantendo suas conexões vivas, sinalizando um para o outro por meio de seu conteúdo. Esses sinais podem ser usados para vincular personas pertencentes ao mesmo usuário em fóruns da dark-web e, mais revelador, para vincular personas na dark web à superfície da web para descobrir a verdadeira identidade de um usuário.
Vincular usuários na dark web é o que a polícia já tenta fazer. O problema é que a quantidade de dados que eles precisam embaralhar manualmente — 500, 000 números de telefone e 2 milhões de anúncios de sexo postados por mês - é muito grande e não estruturado para que eles encontrem conexões rapidamente. Assim, apenas uma pequena porcentagem de casos pode ser perseguida.
Para automatizar o processo de vinculação de persona, O Lincoln Laboratory está treinando algoritmos de aprendizado de máquina para calcular a similaridade entre usuários em diferentes fóruns. Os cálculos são baseados em três aspectos das comunicações dos usuários online:"Como eles se identificam com os outros, sobre o que eles escrevem, e para quem eles escrevem, "Dagli explica.
O algoritmo é primeiro alimentado com dados de usuários em um determinado Fórum A e cria um modelo de autoria para cada usuário. Então, dados de usuários no Fórum B são executados em todos os modelos de usuários do Fórum A. Para encontrar correspondências para informações de perfil, o algoritmo procura por pistas diretas, como mudanças na grafia do nome de usuário como "sergeygork" no Fórum A para "sergey gorkin" no Fórum B, ou semelhanças mais sutis como "joe knight" e "joe nightmare".
O próximo recurso que o sistema analisa é a similaridade de conteúdo. O sistema capta frases únicas - por exemplo, "diversão ao sol" - que são usados em vários anúncios. "Há um monte de copiar e colar acontecendo, então frases semelhantes aparecerão provavelmente do mesmo usuário, "Dagli diz. O sistema então procura por semelhanças na rede de um usuário, que é o círculo de pessoas com as quais o usuário interage, e os tópicos que a rede do usuário discute.
O perfil, contente, e os recursos de rede são então combinados para fornecer uma única saída:uma pontuação de probabilidade de que duas personas de dois fóruns representem a mesma pessoa na vida real.
Os pesquisadores testaram esses algoritmos de vinculação de persona com dados de código aberto do Twitter e Instagram e dados de verdade terrestre rotulados à mão de fóruns da dark web. Todos os dados utilizados neste trabalho são obtidos por meios autorizados. Os resultados são promissores. "Cada vez que reportamos uma partida, estamos corretos 95 por cento das vezes. O sistema é um dos melhores sistemas de ligação que podemos encontrar na literatura, "Dagli diz.
Este trabalho é o desenvolvimento mais recente na pesquisa em andamento. De 2014 a 2017, O Lincoln Laboratory contribuiu com o programa Memex da Defense Advanced Research Projects Agency (DARPA). Memex resultou em um pacote de software de análise de dados de superfície e dark web desenvolvido em colaboração com dezenas de universidades, laboratórios nacionais, e empresas. Dez tecnologias de laboratório abrangendo texto, Fala, e análises visuais que foram criadas para Memex foram lançadas como software de código aberto por meio do DARPA Open Catalog.
Hoje, mais de 30 agências em todo o mundo estão usando o software Memex para conduzir investigações. Um dos maiores usuários, e uma parte interessada no desenvolvimento da Memex, é a Unidade de Resposta ao Tráfico de Seres Humanos (HTRU) do Gabinete do Procurador do Distrito de Manhattan.
O promotor distrital de Manhattan Cyrus Vance Jr. declarou em um depoimento por escrito à Câmara dos Representantes dos EUA que seu escritório usava ferramentas Memex para rastrear mais de 6, 000 detenções por indícios de tráfico de pessoas apenas em 2017. “Também usamos o Memex em 271 investigações de tráfico de pessoas e em seis novas acusações de tráfico sexual que foram instauradas em 2017, "afirmou. Com a introdução do Memex, as prisões de prostituição examinadas pelo HTRU para indicadores de tráfico de pessoas aumentaram de 5 para 62 por cento, e as investigações das prisões relacionadas à prostituição do Departamento de Polícia de Nova York aumentaram de 15 para 300 por ano.
Jennifer Dolle, o vice-chefe do HTRU, visitou o laboratório para apresentar como a unidade tem se beneficiado dessas tecnologias. "Usamos essas ferramentas todos os dias. Elas realmente mudaram a forma como fazemos negócios em nosso escritório, "Dolle diz, explicando que antes do Memex, uma investigação de tráfico de pessoas pode levar muito mais tempo.
Agora, As ferramentas Memex estão permitindo que a HTRU aprimore rapidamente os casos emergentes e construa investigações de tráfico sexual a partir de pistas que têm poucas informações. Por exemplo, essas ferramentas, incluindo uma chamada TellFinder (construída pelo contribuidor do Memex Uncharted Software) para indexação, resumindo, e pesquisa de dados de anúncios de sexo - foram usados para identificar Vítimas menores de idade a partir de dados em um único anúncio de prostituição online. "Essas pistas adicionais de investigação permitem que a HTRU processe traficantes por crimes violentos e responsabilize esses réus pela verdadeira natureza dos crimes que cometem contra vítimas vulneráveis, "diz Dolle.
Os pesquisadores continuam a aprender como as tecnologias emergentes podem ser adaptadas às necessidades das agências e como a dark web opera. "O aprendizado de máquina baseado em dados se tornou uma ferramenta comprovadamente importante para a aplicação da lei no combate aos mercados ilícitos on-line na dark web, "diz Lin Li, um investigador principal deste trabalho contínuo no programa Human Dynamic Dark Networks do laboratório, que é financiado pelo Escritório de Tecnologia do laboratório. "Mas, alguns dos desafios contínuos e áreas de pesquisa incluem expandir nossa compreensão da economia de demanda, perturbando a economia de abastecimento, e obter uma melhor consciência geral da situação. "
Uma melhor compreensão de como funcionam as cadeias de oferta e demanda da economia da dark web ajudará a equipe a desenvolver tecnologias para interromper essas cadeias. Parte do objetivo é aumentar os riscos de participar dessa economia ilícita; vincular personas na dark web àquelas na superfície da web é uma tática potencialmente poderosa.
"Esta economia ilícita de rápido crescimento foi mostrada pela DARPA para financiar atividades terroristas e mostrada pela HTRU como um impulsionador da escravidão moderna. Derrotar o terrorismo e eliminar a escravidão são necessidades nacionais e humanitárias, "diz Joseph Campbell, líder do Grupo de Tecnologia e Sistemas de Inteligência Artificial. "Nosso grupo tem experiência extraordinária em IA, aprendizado de máquina, e a análise de redes humanas com base em informações extraídas de fala multilíngue, texto, e vídeo combinado com comunicações e atividades de rede. As tecnologias de ponta que criamos, desenvolve, e os adiantamentos são repassados aos nossos patrocinadores, que os usam diariamente com tremendo impacto para essas necessidades nacionais e humanitárias. "
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.