Os apresentadores da DefCon exploram a desanonimização do programador, impressões digitais estilísticas

Crédito CC0:domínio público

Uma das coisas mais legais sobre o ensino superior:ganhar consciência dos estilos característicos dos autores, pintores, músicos antes mesmo de sabermos seus nomes. Nós vamos, estilos de assinatura não se limitam apenas às artes.

Dois pesquisadores podem mostrar ao mundo seu trabalho em impressões digitais estilísticas e como elas podem ser usadas para identificar potencialmente programadores a partir de códigos e binários.

"O aprendizado de máquina pode revelar a identidade dos programadores, "foi a manchete de Fossbytes . O artigo falava sobre Rachel Greenstadt e Aylin Caliskan, que apresentou seu trabalho na DefCon. Greenstadt é professor associado, Drexel University; Caliskan é professor assistente de ciência da computação, George Washington University.

"Impressões digitais estilísticas"? Significado? Louise Matsakis em Com fio olhou para algo chamado estilometria - a análise estatística do estilo linguístico. Ela disse que "pesquisas mais recentes mostram que a estilometria também pode ser aplicada a amostras de linguagem artificial, como código. Desenvolvedores de software, acontece que, deixar para trás uma impressão digital também. "

Nesta área, programadores anônimos podem ser identificados. Fossbytes resumiu o esforço de pesquisa:eles testaram códigos enviados por programadores e o sistema conseguiu identificar corretamente 83 por cento das vezes que o algoritmo foi executado.

Eles exploraram a "anonimização do programador" com aprendizado de máquina. Eles chegaram à conferência prontos para mostrar como as árvores de sintaxe abstrata têm "impressões digitais estilísticas, "e os detetives podem usar essas impressões digitais para identificar os programadores, do código e binários. Surge a pergunta:esses algoritmos são do céu ou do inferno? Dois lados da moeda.

O fator positivo, obviamente, seria identificar os autores que plantam malware. Fator negativo:os codificadores que gostam de contribuir com código anonimamente podem ser desencorajados por isso, como observado em Fossbytes . "Há momentos em que os programadores gostariam de permanecer desconhecidos por motivos legítimos e ser identificado nem sempre é uma coisa boa."

Matsakis também comentou sobre as implicações de privacidade, "especialmente para os milhares de desenvolvedores que contribuem com código aberto para o mundo."

Com fio descreveu sua exploração como um experimento binário, onde Caliskan e outros pesquisadores usaram amostras de código da competição anual Code Jam do Google. O algoritmo de aprendizado de máquina identificou corretamente um grupo de 100 programadores individuais 96 por cento do tempo, usando oito amostras de código de cada.

Tão interessante, mesmo quando o tamanho da amostra foi ampliado para 600 programadores, "o algoritmo ainda fazia uma identificação precisa 83 por cento das vezes."

Cory Doctorow em Boing Boing , Enquanto isso, mencionou percepções adicionais em estilos de programação. Doctorow relatou que, na realidade, eles descobriram que desenvolvedores experientes pareciam mais fáceis de identificar do que desenvolvedores novatos. Quanto mais habilidoso você for, mais original se torna seu trabalho.

Como assim? Doctorow comentou que pode ser "em parte porque os programadores iniciantes muitas vezes copiam e colam soluções de código de sites como Stack Overflow".

App que vai estender a vida da bateria do seu smartphone

Os robôs nunca substituirão os professores, mas podem impulsionar a educação das crianças

Eletrônicos