A arquitetura do OnHS-LSTM. Crédito:Akouaydi et al.
Pesquisadores da Universidade de Sfax, na Tunísia, desenvolveram recentemente um novo método para reconhecer caracteres e símbolos escritos à mão em scripts online. Sua técnica, apresentado em um artigo pré-publicado no arXiv, já alcançou desempenho notável em textos escritos tanto no alfabeto latino quanto no árabe.
Nos últimos anos, pesquisadores criaram arquiteturas baseadas em rede neural que podem lidar com uma variedade de tarefas, incluindo classificação de imagem, reconhecimento de rosto, processamento de linguagem natural (PNL), e muitos mais. Os sistemas de reconhecimento de escrita à mão são ferramentas de computador projetadas especificamente para reconhecer caracteres e outros símbolos escritos à mão de maneira semelhante aos humanos.
Nos primeiros anos de vida, na verdade, os seres humanos desenvolvem inatamente a capacidade de compreender diferentes tipos de caligrafia, identificando caracteres específicos tanto individualmente quanto quando agrupados. Ao longo da última década ou assim, muitos estudos tentaram replicar essa capacidade em sistemas de computador, pois isso acabaria por permitir análises mais avançadas e automáticas de textos manuscritos.
"Nosso trabalho lida com o problema de reconhecimento de script manuscrito online com base em um sistema de recursos de extração e sistema de abordagem profunda para classificação de sequência, "os pesquisadores escreveram em seu artigo." Usamos um método existente combinado com novos classificadores para obter um sistema flexível. "
Em seu jornal, os pesquisadores da Universidade de Sfax apresentam dois sistemas baseados em redes neurais profundas:um sistema online de segmentação e reconhecimento de caligrafia que usa uma rede de memória de longo prazo (OnHSR-LSTM) e um sistema de reconhecimento de caligrafia online composto por um longo curto convolucional. rede de memória de termo (OnHR-covLSTM).
A arquitetura de (a) OnHR-convLSTM, (b) a célula convLSTM. Crédito:Akouaydi et al.
Seu primeiro modelo, apelidado de OnHSR-LSTM, baseia-se em uma teoria que descreve o sistema perceptivo humano como meio de transformar a linguagem de marcas gráficas em representações simbólicas. Ele funciona detectando propriedades comuns de símbolos ou caracteres e, em seguida, organizando-os de acordo com leis perceptivas específicas, por exemplo, com base na proximidade, semelhança, etc.
"Finalmente, ele [o modelo] tenta construir uma representação da forma manuscrita com base no pressuposto de que a percepção da forma é a identificação de características básicas que são organizadas até que identifiquemos um objeto, "os pesquisadores explicaram em seu artigo." Portanto, a representação da escrita à mão é uma combinação de traços primitivos. A escrita à mão é uma sequência de códigos básicos agrupados para definir um caractere ou uma forma. "
A primeira técnica proposta pelos pesquisadores divide essencialmente uma escrita manuscrita em traços elípticos individuais usando um modelo de geração de caligrafia. Subseqüentemente, esses golpes são classificados em códigos primitivos, que são usados pela arquitetura neural para reconhecer palavras em scripts escritos à mão online.
O segundo sistema proposto pelos pesquisadores, OnHR-convLSTM, é um modelo generativo que usa o sinal online de um script como entrada e é treinado para prever caracteres e palavras. Esta segunda técnica é particularmente útil para tarefas de aprendizagem de sequência (ou seja, tarefas que envolvem o processamento e classificação de longas sequências de caracteres e símbolos).
Os pesquisadores treinaram e avaliaram os dois sistemas usando cinco bancos de dados diferentes contendo scripts manuscritos nos alfabetos árabe e latino. Seus testes produziram resultados notáveis, com ambos os sistemas alcançando taxas de reconhecimento de mais de 98 por cento. Interessantemente, os pesquisadores descobriram que o desempenho de ambas as técnicas é comparável ao tipicamente alcançado por seres humanos em tarefas semelhantes.
"Agora planejamos construir e testar nossos sistemas de reconhecimento propostos em um banco de dados de grande escala e outros scripts, "escreveram os pesquisadores.
© 2019 Science X Network