p As ferramentas de software podem levar vários idiomas para espaços totalmente novos. Crédito:Zubada / Shutterstock
p Vivemos em um mundo onde cerca de 7.000 idiomas são falados, e onde as tecnologias de informação e comunicação estão se tornando cada vez mais onipresentes. Isso aumenta a demanda por mais, e mais avançado, Human Language Technologies (HLTs). p Essas tecnologias incluem métodos computacionais, programas de computador e dispositivos eletrônicos especializados em análise, produzir ou modificar textos e fala.
p O envolvimento com um idioma como o inglês é facilitado graças às muitas ferramentas para apoiá-lo, como verificadores ortográficos em navegadores e preenchimento automático para mensagens de texto. Principalmente porque o inglês tem uma gramática relativamente simples e bem investigada, mais dados com os quais o software pode aprender, e financiamento substancial para desenvolver ferramentas. A situação é um pouco diferente para a maioria dos idiomas do mundo.
p Isso está começando a mudar. Multinacionais voltadas para o lucro, como o Google, Facebook e Microsoft, por exemplo, têm investido no desenvolvimento de HLTs também para línguas africanas.
p Pesquisadores e cientistas, eu mesmo incluído também estou investigando e criando essas tecnologias. Tem uma relevância direta para a sociedade:línguas, e as identidades e culturas ligadas a eles, são um recurso nacional para qualquer país. Em um país como a África do Sul, aprender línguas diferentes pode promover a coesão e a inclusão.
p Só aprendendo um idioma, Contudo, não é suficiente se não houver infraestrutura para suportá-lo. Por exemplo, qual é o objetivo de pesquisar na web, dizer, isiXhosa quando os algoritmos do mecanismo de pesquisa não conseguem processar as palavras adequadamente e, portanto, não retornam os resultados que você está procurando? Onde estão os verificadores ortográficos para ajudá-lo a escrever e-mails, redações escolares, ou artigos de notícias?
p É por isso que temos estabelecido bases teóricas e criando ferramentas de prova de conceito para várias línguas sul-africanas. Isso inclui verificadores ortográficos para isiZulu e isiXhosa e a geração de texto principalmente nesses idiomas a partir de entrada estruturada.
p
Usando regras da linguagem para desenvolver ferramentas
p O desenvolvimento de ferramentas para o grupo de idiomas Nguni - e isiZulu e isiXhosa em particular - não era simplesmente um caso de ferramentas de copiar e colar do inglês. Eu tive que desenvolver novos algoritmos que podem lidar com a gramática bastante diferente. Também colaborei com linguistas para descobrir os detalhes de cada idioma.
p Por exemplo, até mesmo gerar automaticamente o substantivo plural em isiZulu a partir de um substantivo no singular exigia uma nova abordagem que combinava a sintaxe - como é escrita - com a semântica (o significado) dos substantivos usando seu sistema de classes de substantivos característicos. Em inglês, regras meramente baseadas em sintaxe podem fazer o trabalho.
p Abordagens baseadas em regras também são preferidas para analisadores morfológicos, que divide cada palavra em suas partes constituintes, e para geração de linguagem natural. A geração de linguagem natural envolve a obtenção de dados estruturados, informação ou conhecimento, como os números nas colunas de uma planilha, e criar texto legível a partir deles.
p Uma maneira simples de perceber isso é usar modelos em que o software se encaixe nos valores dados pelos dados ou pela teoria lógica. Isso não é possível para isiZulu, porque os constituintes da frase são dependentes do contexto.
p Um mecanismo de gramática é necessário para gerar até mesmo as frases mais básicas corretamente. Elaboramos os principais aspectos do fluxo de trabalho no mecanismo. Isso está sendo estendido com mais detalhes dos verbos.
p
Usando muito texto para desenvolver ferramentas
p A abordagem baseada em regras consome muitos recursos. Esse, em combinação com o hype global em torno de "Big Data", trouxe abordagens baseadas em dados para o primeiro plano.
p A esperança é que ferramentas de melhor qualidade possam agora ser desenvolvidas com menos esforço e que seja mais fácil reutilizar essas ferramentas para linguagens relacionadas. Isso pode funcionar, desde que tenha muito texto de boa qualidade, referido como um corpus.
p Esses corpora estão sendo desenvolvidos, e o recém-criado Centro Sul-Africano para Recursos de Linguagem Digital (SADiLaR) visa reunir recursos computacionais. Investigamos os efeitos de um corpus na qualidade de um verificador ortográfico isiZulu, que mostrou que aprender o modelo de linguagem baseado em estatísticas em textos antigos como a Bíblia não se transfere bem para textos modernos, como notícias do jornal Isolezwe, nem vice-versa.
p O verificador ortográfico tem cerca de 90% de precisão na detecção de erros de uma única palavra e parece contribuir para a intelectualização do isiZulu.
p Seus algoritmos usam trigramas e probabilidades de sua ocorrência no corpus para calcular a probabilidade de que uma palavra seja escrita corretamente, em vez de uma abordagem baseada em dicionário que é impraticável para linguagens de aglutinação. Os algoritmos foram reutilizados para isiXhosa simplesmente alimentando-o com um pequeno corpus de isiXhosa:ele alcançou cerca de 80% de precisão, mesmo sem otimizações.
p Abordagens baseadas em dados também são buscadas em ferramentas para encontrar informações online, ou seja, para desenvolver motores de busca como um 'Google para isiZulu'. Algoritmos para tradução automática baseada em dados, por outro lado, pode ser facilmente enganado por dados de treinamento fora do domínio a partir dos quais ele precisa aprender os padrões.
p
Relevância para a África do Sul
p Esse tipo de geração de linguagem natural pode ser extremamente útil na África do Sul. O país tem 11 línguas oficiais, com o inglês como idioma de negócios. Isso resultou na exclusão dos outros 10, e em particular aqueles que já tinham recursos insuficientes.
p Essa tendência vai contra os direitos dos cidadãos e as obrigações do Estado, conforme definido na Constituição. Essas obrigações vão além de apenas promover a linguagem. Leva, por exemplo, o direito de acesso ao sistema público de saúde. Um estudo mostrou que apenas 6% das consultas médico-paciente foram realizadas na língua materna do paciente. Os outros 94% essencialmente não receberam o atendimento de qualidade que mereciam por causa das barreiras do idioma.
p O tipo de pesquisa em que estou trabalhando com minha equipe pode ajudar. Pode contribuir para, entre outros, perceber tecnologias como a geração automática de notas de alta do paciente em seu próprio idioma, previsões do tempo baseadas em texto, e exercícios de aprendizagem de línguas online. p Este artigo foi publicado originalmente em The Conversation. Leia o artigo original.