• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Construindo um arquivo digital para documentos em papel deteriorados

    Converter documentos antigos em papel em arquivos digitais pode ser um esforço árduo. Crédito:Slave Societies Digital Archive, CC BY-ND

    Documentos em papel ainda são registros inestimáveis ​​do passado, mesmo em um mundo digital. Fontes primárias armazenadas em arquivos locais em toda a América Latina, por exemplo, descrevem uma sociedade multiétnica centenária às voltas com questões raciais, classe e religião.

    Contudo, arquivos de papel são vulneráveis ​​a inundações, umidade, insetos, e roedores, entre outras ameaças. A instabilidade política pode cortar o dinheiro usado para manter arquivos e a negligência institucional pode transformar registros preciosos em lixo mofado.

    Trabalhando em estreita colaboração com colegas de todo o mundo, Eu construo arquivos digitais e ferramentas especializadas que nos ajudam a aprender com esses registros, que traçam a vida de pessoas de ascendência africana livre e escravizada nas Américas de 1500 a 1800. Nosso esforço, o Arquivo Digital Slave Societies, é um dos muitos projetos de humanidades que acumularam coleções substanciais de imagens digitais de documentos em papel.

    O objetivo é garantir que essas informações - incluindo algumas de documentos que não existem mais fisicamente - sejam acessíveis às gerações futuras.

    Mas preservar a história tirando fotos de alta resolução de documentos centenários é apenas o começo. Os avanços tecnológicos ajudam acadêmicos e arquivistas como eu a fazer um trabalho melhor ao preservar esses registros e aprender com eles, mas nem sempre facilita.

    Um arquivo em Cuba contém tesouros de papel difíceis de usar e estudar - mesmo pessoalmente. Crédito:Slave Societies Digital Archive, CC BY-ND

    Coletando documentos

    Desde 2003, o Slave Societies Digital Archive recolheu mais de 700, 000 imagens digitalizadas de registros históricos que documentam a vida de milhões de africanos e afrodescendentes nas Américas do Sul e do Norte.

    Membros da equipe principal, de universidades nos EUA, Canadá, e brasil, viagens para locais de projeto em toda a América Latina, onde eles treinam estudantes locais e arquivistas para digitalizar registros eclesiásticos e governamentais de suas comunidades. Damos as câmeras a essas comunidades, computadores e outros hardwares de que precisam para preservar digitalmente documentos empilhados nos cantos de porões de igrejas do século 18, ou prestes a ser descartado por arquivos municipais destruídos pelo espaço.

    Também ensinamos a eles uma habilidade crucial para arquivamento e recuperação:como criar metadados, as informações descritivas para ajudar as pessoas a encontrar o que lhes interessa, como se um documento é uma certidão de casamento ou um registro de batismo, e de que ano e cidade é. Bons metadados permitem que os visitantes do site do projeto, por exemplo, pesquise todos os registros de batismo da Colômbia do século 17.

    Da digitalização à preservação

    Hora extra, nós ficamos muito melhores na digitalização de documentos. Em imagens mais antigas, não é incomum ver o dedo do fotógrafo saindo da lateral do quadro. Algumas dessas imagens mais antigas são armazenadas como arquivos JPEG de resolução relativamente baixa, um formato que comprime o tamanho do arquivo de imagem, excluindo alguns dados quando são salvos. A maioria desses arquivos ainda são completamente legíveis, mesmo quando um visualizador aumenta o zoom, mas alguns não são e precisarão ser digitalizados novamente no futuro.

    Muitas pessoas se envolvem, ensinando e aprendendo a fotografar documentos corretamente. Crédito:Slave Societies Digital Archive, CC BY-ND

    Nossa preservação mais recente segue os rigorosos padrões da Biblioteca Britânica, que financia grande parte do nosso trabalho. Essas imagens são tiradas em resoluções muito altas e armazenadas em vários formatos de arquivo, incluindo TIFF, que continua sendo o padrão de arquivamento.

    Transformar uma coleção de imagens digitalizadas em um verdadeiro arquivo digital é um esforço demorado e voltado para os detalhes. No início deste processo, encontramos um problema curioso envolvendo fotografias tiradas durante nossos primeiros esforços de digitalização. O software moderno freqüentemente interpreta mal a orientação dessas imagens, dando-nos páginas giradas 90 graus para a direita ou esquerda ou mesmo completamente de cabeça para baixo. Nos casos em que um volume inteiro foi girado da mesma maneira incorreta, poderia ser consertado automaticamente, mas outros com uma série de erros tiveram que ser corrigidos manualmente para permitir que os pesquisadores trabalhassem mais facilmente com o material.

    Também descobrimos que os nomes dos arquivos de dados podem causar problemas. Muitas câmeras atribuem nomes padrão às imagens - como DSCN9126.jpg - que não são úteis para descobrir o que são as imagens. Temos que renomear cada imagem de uma forma padrão que indique como ela se encaixa em nossa coleção.

    Por enquanto, optamos simplesmente por numerar as imagens sequencialmente dentro de cada volume; outra opção razoável seria prefixar cada um desses números com um ID referente ao volume de onde a imagem vem.

    Estes não são grandes obstáculos, mas eles e outros em linhas semelhantes levam algum tempo para descobrir e resolver adequadamente. Mas esse esforço compensa quando as pessoas que desejam explorar a coleção têm mais facilidade para localizar e usar nossas imagens.

    Com cuidado, a preservação digital pode dar nova vida a documentos em ruínas. Crédito:Slave Societies Digital Archive, CC BY-ND

    Onde armazená-los?

    Depois de capturar as imagens, precisamos salvá-los em algum lugar.

    Atualmente, a coleção Slave Societies Digital Archive tem quase 20 terabytes - aproximadamente o espaço necessário para armazenar todo o texto na Biblioteca do Congresso.

    Poucas instituições têm recursos, pessoal ou experiência necessária para armazenar dados de humanidades em escalas tão grandes. O armazenamento de dados não é exorbitante, mas também não é barato, especialmente quando os dados precisam ser acessados ​​regularmente, em vez de ser armazenado em um backup estático ou cópia de arquivo.

    Por muitos anos, a Biblioteca da Universidade Vanderbilt hospedou os dados, mas superamos o que aquela organização poderia pagar. Estávamos fazendo backup de muitos de nossos registros mais importantes na Rede de Preservação Digital, um consórcio de universidades que reuniu recursos para financiar um sistema de armazenamento digital confiável para a produção acadêmica. But that organization shut down in late 2018 after consulting with each member organization to ensure that no data would be lost.

    Our path has led to the cloud, computers in technology companies' massive server-warehouse buildings that we access remotely to store and retrieve information. No momento, multiple copies of our entire dataset are stored on servers on opposite sides of North America. Como resultado, we're far less likely to lose our data than at any previous point in the project's history.

    If you can read this, you’re very highly trained. Credit:The Conversation screenshot of Slave Societies Digital Archive file, CC BY-ND

    Opening access

    Storing these records in secure systems is another part of the equation, but we also need to make sure that they're accessible to the people who want to see them.

    Our documents, typically written in archaic Spanish or Portuguese, are very hard to read. Even native speakers need special training to decipher what they say.

    Por muitos anos, we've been producing manual transcriptions of some of our most noteworthy records, such as a volume of baptisms from late 16th-century Havana. But that takes 10 to 15 minutes per page—meaning that transcribing our entire collection would take more than 100, 000 horas.

    Other projects have used volunteers to do similar work, but that approach is less likely to be the solution for our archive because of the linguistic skills required to read our documents.

    We are exploring automating the transcription process using handwriting recognition technology. Those systems need more work, particularly when dealing with centuries-old handwriting styles, but some researchers are already making progress.

    We are also looking at ways to identify the people and places mentioned in our records, making them searchable and connecting them to other similar datasets.

    As we and other researchers connect our work, the stories contained in these old documents will come to life and bring new insight to modern scholars.

    Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.




    © Ciência https://pt.scienceaq.com