Pesquisador usa aprendizado de máquina para ajudar a digitalizar textos antigos da civilização do Indo
Uma série de selos do Indo de Iravatham Mahadevan, um estudioso e autor que estuda a escrita do Indo há décadas. Crédito:Instituto de Tecnologia da Flórida A civilização do Vale do Rio Indo é considerada uma das três primeiras civilizações da história mundial, junto com a Mesopotâmia e o Egito. Maior geograficamente do que essas duas, à medida que se desenvolveu a partir de 3300 a.C. no que hoje é o Paquistão e a Índia, a civilização do Indo ostentava pesos e medidas uniformes, artesãos qualificados, um sistema multifacetado de comércio e comércio e mais de 500 símbolos e sinais para comunicação.
Mas uma questão tem incomodado os estudiosos há décadas e dificultado as tentativas de aprender mais sobre esta civilização:esses caracteres eram uma linguagem ou eram mais parecidos com pictogramas? Mesmo quando alguns especialistas começam a traduzir a escrita da direita para a esquerda encontrada nas inscrições do Indo, há pouco acordo.
"Essa é uma controvérsia que ainda não foi resolvida", disse Debasis Mitra, professor de ciência da computação que agora está conectado a essa busca graças a uma nova bolsa que recebeu do National Endowment for the Humanities:"Ancient Script Digitization and Archival ( ASDA) de artefatos do Vale do Indo usando Deep Learning."
O estudante assistente de pós-graduação Deva Atturu, que defenderá sua tese de mestrado em abril, está auxiliando Mitra na condução da pesquisa financiada pela bolsa. Ainda neste mês, ele e Mitra participaram virtualmente da Conferência de Arqueologia do Sul da Ásia 2024 da Universidade de Chicago, onde Atturu apresentou seu trabalho.
Os escritos que estão estudando podem ser uma série de símbolos, como o equivalente a cifrões e imagens de transações comerciais, ou esses símbolos podem ser grafemas, as letras individuais ou grupos de letras que representam os sons da fala.
“Ambos os lados têm argumentos muito fortes”, disse Mitra.
Ele não está procurando resolver o argumento, mas capacitar aqueles que o fizerem, desenvolvendo um algoritmo de aprendizado de máquina para identificar e digitalizar a antiga escrita da civilização do Indo. Há uma escassez de dados digitalizados que Mitra espera resolver.
O processo usa um sistema automatizado de reconhecimento de script (ASR) para extrair sequências codificadas de grafemas de um conjunto de dados de mais de 1.000 fotografias de focas do Indo. Usando redes neurais artificiais de dois estágios, o ASR alcançou 88% de sucesso na detecção de grafemas.
Ainda assim, o processo tem sido desafiador. Freqüentemente, o aprendizado de máquina é potencializado pela inserção de grandes quantidades de dados para basicamente treinar o sistema. Neste caso, porém, não há muitos dados para inserir. E os dados existentes às vezes podem ser "ruidosos" ou distorcidos.
“Eu trabalho com imagens médicas e alguns dos desafios são semelhantes”, disse Mitra.
Mitra aplica diferentes elementos de aprendizado de máquina ao projeto para tentar gerar novos dados ou ver se outra abordagem pode funcionar melhor. E ele também se encontra em conferências que normalmente não estão programadas para cientistas da computação, como a Conferência Anual do Sul da Ásia do ano passado, organizada pela Universidade de Wisconsin em Milwaukee, onde apresentou este projeto de aprendizado de máquina.
Frequentá-los o mantém em contato com arqueólogos que podem lhe fornecer mais dados. “Vou a essas conferências e tento conversar com eles”, disse ele.
Ele também conta com a ajuda de estudantes do Instituto Indiano de Estatística, em sua Índia natal. Juntos, eles estão progredindo. Eles podem digitalizar alguns motivos e grafemas e, dependendo da quantidade de dados, até criar um roteiro. Fazer isso e colocá-lo em um banco de dados é o objetivo do financiamento inicial.
A próxima fase? Criar um sistema que permita aos arqueólogos em campo tirar uma foto de um texto ou símbolos em um smartphone e encaminhá-la para o banco de dados para digitalização.
O facto de estes esforços serem concebidos para ajudar a iluminar e compreender melhor uma das grandes civilizações da história do seu país é uma motivação adicional para Mitra.
“Faz parte da minha história, então há uma motivação extra para isso. E obviamente vejo que os estudantes indianos estão muito interessados pelo mesmo motivo”, disse ele. "Mas uma das primeiras descobertas foi feita por alguns estudantes americanos que tinham grande interesse na Índia, e alguns deles disseram que visitaram a Índia depois."