• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • OCR4all:ferramenta moderna para textos antigos

    Página de uma versão francesa do "Narrenschiff" (Navio dos Tolos). Essas fontes antigas podem ser convertidas de forma confiável em texto legível por computador com OCR4all. Crédito:Biblioteca Estadual e Universitária de Dresden, CC BY-SA 4.0

    Historiadores e outros estudiosos das ciências humanas freqüentemente têm que lidar com objetos de pesquisa difíceis:trabalhos impressos centenários que são difíceis de decifrar e freqüentemente em um estado de conservação insatisfatório. Muitos desses documentos já foram digitalizados - geralmente fotografados ou digitalizados - e estão disponíveis online em todo o mundo. Para fins de pesquisa, isso já é um passo em frente.

    Contudo, ainda há um desafio a superar:trazer as fontes antigas digitalizadas para uma forma moderna com software de reconhecimento de texto que é legível para não especialistas, bem como para computadores. Cientistas do Centro de Filologia e Digitalidade da Julius-Maximilians-Universität Würzburg (JMU) na Baviera, Alemanha, deram uma contribuição significativa para um maior desenvolvimento neste campo.

    Com OCR4all, a equipe de pesquisa do JMU está disponibilizando uma nova ferramenta para a comunidade científica. Ele converte impressões históricas digitalizadas com uma taxa de erro de menos de um por cento em textos legíveis por computador. E oferece uma interface gráfica de usuário que não requer nenhum conhecimento de TI. Com ferramentas anteriores desse tipo, a facilidade de uso nem sempre foi garantida, já que os usuários geralmente tinham que trabalhar com comandos de programação.

    Desenvolvido em cooperação com as humanidades

    A nova ferramenta OCR4all foi desenvolvida sob a direção de Christian Reul junto com seus colegas de ciência da computação Professor Frank Puppe (Presidente de Inteligência Artificial e Ciência da Computação Aplicada) e Christoph Wick, bem como Uwe Springmann (especialista em Humanidades Digitais) e vários alunos e assistentes.

    OCR4all se origina do projeto JMU Kallimachos, que é financiado pelo Ministério Federal Alemão de Educação e Pesquisa. Esta cooperação entre as humanidades e a ciência da computação será continuada e institucionalizada no recém-fundado JMU Center for Philology and Digitality.

    Ao desenvolver OCR4all, cientistas da computação colaboraram com as ciências humanas na JMU - incluindo estudos alemães e romances e estudos de literatura no projeto "Narragonien digital". O objetivo era digitalizar o "Narrenschiff, "uma sátira moral de Sebastian Brant, um best-seller do século 15 que foi traduzido para vários idiomas. Além disso, OCR4all tem sido freqüentemente usado no Kolleg "Medieval and Early Modern Times" do JMU.

    OCR4all está disponível gratuitamente para o público na plataforma GitHub (com instruções e exemplos):https://github.com/OCR4all

    Cada gráfica tinha sua própria fonte

    Christian Reul explica os desafios envolvidos no desenvolvimento de OCR4all:O reconhecimento automático de texto (OCR =Optical Character Recognition) tem funcionado muito bem para fontes modernas há algum tempo. Contudo, ainda não foi o caso das fontes históricas.

    "Um dos maiores problemas era a tipografia, "diz Reul. Uma das razões para isso é que as primeiras impressoras do século 15 não usavam fontes uniformes." Seus selos de impressão eram todos esculpidos por eles mesmos, cada gráfica tinha praticamente suas próprias cartas. "

    Taxas de erro abaixo de um por cento

    Seja "e" ou "c, "seja" v "ou" r "- muitas vezes não é fácil distinguir em gravuras antigas, mas o software pode aprender a reconhecer essas sutilezas. Para fazer isso, tem que ser treinado em material de amostra. Em seu trabalho, Reul desenvolveu métodos para tornar o treinamento mais eficiente. Em um estudo de caso com seis gravuras históricas dos anos 1476 a 1572, a taxa média de erro no reconhecimento automático de texto foi reduzida de 3,9 para 1,7 por cento.

    Não só a metodologia foi melhorada, O cientista da computação da JMU, Christoph Wick, também refinou de forma decisiva o componente técnico ao desenvolver a ferramenta Calamari OCR, que também está disponível gratuitamente e desde então foi totalmente integrado ao OCR4all, prometendo resultados ainda melhores. Agora, mesmo para as obras impressas mais antigas, taxas de erro de menos de um por cento podem ser alcançadas em geral.

    Projetos lexicais

    Reul também convenceu parceiros externos da qualidade da pesquisa de OCR de Würzburg. Em cooperação com o "Zentrum für digitale Lexikographie der deutschen Sprache" (Berlim), O "Wörterbuch der deutschen Sprache" (Dicionário da Língua Alemã) de Daniel Sanders foi indexado digitalmente, e uma publicação científica sobre este trabalho está sendo preparada. As várias linhas deste texto geralmente contêm fontes diferentes, representando diferentes informações semânticas. Aqui, a abordagem existente para o reconhecimento de caracteres foi estendida de tal forma que não apenas o texto, mas também a tipografia e, portanto, a estrutura de conteúdo complexa do léxico podem ser reproduzidos com muita precisão.

    O cientista da computação de Würzburg logo concluirá sua tese de doutorado, mas ele também está disposto a continuar trabalhando com OCR no futuro:"A ciência da computação por trás do OCR é extremamente empolgante, ", diz ele. Um projeto possível em um futuro próximo:os criadores do" Idiotikon, "um dicionário da língua suíça-alemã, demonstraram interesse em colaboração, pois podem precisar do conhecimento especializado de Würzburg.


    © Ciência https://pt.scienceaq.com