Investigadores que tentam identificar uma pessoa desconhecida podem passar meses vasculhando enormes árvores genealógicas. Crédito:Cory Hall
Por quase 37 anos, ela era conhecida como Buckskin Girl - uma jovem e anônima vítima de assassinato encontrada nos arredores de Dayton, Ohio, vestindo um poncho de couro de veado. Então, em abril de 2018, a polícia anunciou que o mistério de sua identidade havia sido resolvido. Seu nome era Marcia L. King, e ela foi identificada ligando um trecho de seu DNA a um de seus primos.
Foi um dos primeiros casos de grande repercussão em que esse método investigativo foi usado para identificar um corpo não reclamado. Duas semanas depois que o nome de King foi revelado, a polícia da Califórnia anunciou que havia usado técnicas semelhantes para rastrear o Golden State Killer. De repente, a combinação de amostragem genética, pesquisa genealógica e antiquado gumshoeing foi saudada como um avanço revolucionário que resolveria centenas de casos arquivados.
Desde então, a genealogia genética forense eliminou mais de 400 casos nos EUA. No entanto, esse trabalho de detetive é complexo e demorado. Enquanto King foi identificado após apenas algumas horas de investigação, a maioria dos casos leva muito mais tempo. Em média, eles levam mais de um ano para resolver com sucesso. Muitos ficam inacabados:as agências de aplicação da lei podem ficar sem financiamento antes que uma pessoa possa ser identificada e os investigadores podem desistir se chegarem a muitos becos sem saída.
Uma abordagem mais sistemática ajudaria, diz Lawrence Wein, professor de operações, informação e tecnologia da Stanford Graduate School of Business. Com Mine Su Ertürk, Ph.D., ele revelou um método para resolver casos arquivados com mais rapidez e sucesso. Em um novo artigo no
Journal of Forensic Sciences , eles apresentam a primeira análise matemática detalhada do processo de genealogia genética forense e delineiam uma maneira de os investigadores otimizarem as buscas por vítimas desconhecidas ou suspeitos de crimes.
Para desenvolver seu método de busca, Wein e Ertürk se uniram ao DNA Doe Project, uma organização sem fins lucrativos da Califórnia que resolveu mais de 65 casos de restos mortais não identificados, incluindo o caso King. Ele forneceu aos pesquisadores dados de 17 casos, incluindo 8 que não foram resolvidos na época. "Isso é bastante semelhante à média histórica de casos que eles resolveram", diz Wein. “Portanto, não há razão para suspeitar que esses casos sejam muito mais difíceis ou muito mais fáceis do que os casos selecionados aleatoriamente”.
Usando esses dados do mundo real, Wein e Ertürk analisaram como as pesquisas genealógicas genéticas forenses são comumente feitas e, em seguida, testaram seu método, que visa maximizar a probabilidade de encontrar uma solução no menor tempo possível. "Acaba sendo muito mais rápido", diz Wein sobre a nova abordagem - quase 10 vezes mais rápida. "Se eles estão resolvendo apenas um pequeno número de casos usando o método atual, e podemos fazê-los resolvê-los 10 vezes mais rápido, então eles podem resolver muito mais casos."
Uma floresta de árvores genealógicas Uma típica investigação de genealogia genética começa com uma amostra de DNA de um "alvo", como um corpo não identificado ou um suspeito de assassinato. Ele é carregado em um banco de dados de DNA, como GEDmatch ou FamilyTreeDNA, que gera uma lista de "correspondências" - pessoas que compartilham partes do genoma do alvo. Uma busca pode revelar centenas dessas correspondências, geralmente primos distantes cujos ancestrais compartilhados podem ter morrido há mais de um século. Os casos que Wein e Ertürk analisaram tiveram entre 200 e 5.000 partidas.
Isso é apenas o começo:traçar uma linha desses parentes distantes até o alvo requer a construção de uma árvore genealógica que inclua o maior número possível de membros da família. Aqui, também, a escala do problema é assustadora. "Estas são árvores enormes", diz Wein. "É muito difícil apresentar visualmente algo maior do que algumas dúzias de pessoas." À medida que a árvore se expande, as chances de identificar o alvo aumentam, mas a duração da busca também aumenta.
Em seguida, as pessoas relevantes na árvore devem ser identificadas. Isso requer vasculhar registros públicos, sites de genealogia e mídias sociais – trabalho braçal demorado que combina intuição e habilidade. "Há toda uma arte nisso", diz Wein. "Usando documentos de casamento e documentos de óbito e documentos de nascimento e Facebook e todos os tipos de registros diferentes para tentar descobrir quem são as pessoas e quem são seus ancestrais e descendentes."
Não é imediatamente aparente quais correspondências fornecerão o melhor caminho para o alvo. As estratégias dos investigadores para seguir essas pistas tendem a ser descentralizadas, diz Wein. "Você tem uma equipe de pessoas fazendo isso e cada uma delas decide fazer uma partida para investigar, e então elas vão sozinhas para tentar construir uma árvore genealógica de volta no tempo a partir de cada partida. Elas não estão pensando sobre o quadro geral de forma holística."
Ao dar um passo atrás e avaliar todo o problema, Wein e Ertürk fornecem um roteiro para genealogistas genéticos que buscam o caminho mais eficiente para um alvo não identificado. "Basicamente, estamos dizendo a eles:'Dado onde você está na busca agora, é isso que você deve fazer a seguir'", diz Wein.
Resolver equações e crimes Explicar a diferença entre o novo método de pesquisa e o método padrão, ou "benchmark", é complicado, mas Wein resume tudo a isso:"O método de referência procura ancestrais comuns entre diferentes correspondências. O que você realmente deseja encontrar é o mais ancestral comum recente entre uma correspondência e o alvo desconhecido, e esse é um problema um pouco diferente." O ancestral comum mais recente dos primos de primeiro grau, por exemplo, é um avô; primos de segundo grau compartilham um bisavô e assim por diante.
Depois de identificar uma lista de possíveis ancestrais comuns mais recentes, o método de Wein e Ertürk "agressivamente" preenche a árvore genealógica com seus descendentes, mesmo que haja apenas uma pequena chance de que o ancestral do alvo esteja na lista.
Esse salto é realizado usando a teoria da probabilidade para rastrear o progresso da pesquisa. "Fazemos isso descrevendo a árvore genealógica reconstruída como uma coleção de probabilidades que representam a probabilidade de cada pessoa em nossa árvore ser um ancestral correto do alvo", explica Ertürk. "Então, olhando para essas probabilidades, você pode dizer quais partes da árvore você deve explorar mais."
Essa abordagem se mostra eficaz mesmo com árvores genealógicas menores, o que significa tempos de resolução mais rápidos. Depois de executar centenas de pesquisas simuladas, Wein e Ertürk concluem que seu método pode resolver um caso com uma árvore genealógica de 7.500 pessoas em cerca de 94% das vezes. A taxa de sucesso do método padrão nesses casos é de cerca de 4%.
Wein espera que essas descobertas ajudem o DNA Doe Project e outros pesquisadores a refinar sua abordagem e desvendar mais casos. Ele observa que sua análise não leva em conta alguns dos "truques" que os investigadores genéticos usam para restringir suas pesquisas, como focar em membros da família que moravam em um determinado local. "De forma alguma nosso algoritmo pretende substituir os genealogistas", diz ele. “Mas se eles estiverem realmente presos, isso lhes dará algumas ideias que podem não ser óbvias”.
Wein e Ertürk já aplicaram matemática para enfrentar desafios investigativos antes. No ano passado, Ertürk co-escreveu um artigo com o professor da Stanford GSB, Kuang Xu, que delineou um método de pesquisa genética que equilibra questões de eficiência e privacidade. Wein pesquisou maneiras melhores de escanear impressões digitais, processar kits de agressão sexual e rastrear balas.
Ele vê a genealogia genética forense como outra ferramenta de resolução de crimes que pode ser aprimorada para cumprir sua promessa. "É um campo interessante que combina probabilidade e estatística e otimização e, às vezes, teoria dos jogos", diz ele. "Foi assim que eu, do ponto de vista matemático, fiquei atraído por esses problemas."
+ Explorar mais Seu genoma é realmente seu? O valor público e forense do DNA