• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Um método baseado em CNN para script de fórmula matemática e identificação de tipo
    p O sistema baseado em CNN para script de símbolos e identificação de tipo. Crédito:Khazri &Echi.

    p Pesquisadores da Universidade de Tunis propuseram recentemente um novo sistema para script de fórmulas matemáticas e identificação de tipo, que se baseia em redes neurais convolucionais (CNNs). Seu método, apresentado em um artigo publicado pela Springer, pode discriminar automaticamente entre fórmulas impressas / manuscritas e árabes / latinas. p Nos últimos anos, pesquisadores têm tentado desenvolver sistemas que possam identificar as formas em que um documento é apresentado, como o idioma usado e se o texto é impresso à máquina ou manuscrito, para selecionar o sistema de reconhecimento apropriado para cada documento. A maioria dessas abordagens se concentra na identificação de diferentes formas de texto, enquanto muito poucos são projetados para analisar fórmulas matemáticas.

    p "Nesse contexto, apresentamos uma nova abordagem que trata do problema de identificação do script, Árabe ou latim; e o tipo, escrito à mão ou impresso à máquina, de fórmulas matemáticas, "os pesquisadores da Universidade de Tunis escreveram em seu artigo." Este trabalho vem como parte de nossa pesquisa sobre o reconhecimento offline das fórmulas matemáticas árabes. "

    p Em seu estudo, os pesquisadores apresentaram um sistema direcionado por sintaxe projetado para reconhecer símbolos e analisar seu arranjo. Para reconhecer símbolos, sua abordagem usa recursos estatísticos e um classificador de rede Bayes.

    p Para analisar a estrutura de uma fórmula, seu sistema emprega um esquema de análise de cima para baixo e de baixo para cima com base no domínio do operador. Em outras palavras, seu sistema realiza um léxico, análise geométrica e sintática de uma fórmula, o que ajuda a identificar seu script (latim vs. árabe) e se foi manuscrito ou digitado à máquina.

    p "A análise da fórmula consiste em aplicar, do operador dominante e seu contexto, a regra apropriada para dividir as fórmulas em sub-fórmulas, que será analisado recursivamente da mesma forma, "os pesquisadores explicaram em seu artigo.

    p Usando uma CNN, a abordagem concebida pelos pesquisadores primeiro extrai e depois classifica os componentes conectados de uma fórmula. Os pesquisadores treinaram e avaliaram seu sistema usando fórmulas do script latino dos bancos de dados InftyMDB-1 e CROHME, bem como fórmulas árabes digitalizadas de livros de matemática ou manuscritas por cinco escritores diferentes.

    p "O sistema de reconhecimento proposto foi testado em fórmulas matemáticas complexas contendo multiplicação implícita, subscritos e sobrescritos, com resultados satisfatórios, "escreveram os pesquisadores." Adicionando mais recursos, testar outros algoritmos de seleção de recursos e escolher classificadores mais rápidos deve melhorar o desempenho do sistema proposto. "

    p Geral, as avaliações realizadas pelos pesquisadores produziram resultados altamente promissores, com seu sistema atingindo uma taxa de identificação de 94,6%. O analisador que eles usaram para analisar a estrutura das fórmulas também parece ser muito robusto, já que alcançou uma impressionante taxa de reconhecimento de 97,63%. Em seu trabalho futuro, os pesquisadores planejam melhorar o desempenho de seu sistema desenvolvendo ainda mais os filtros e a arquitetura da CNN. p © 2019 Science X Network




    © Ciência https://pt.scienceaq.com