• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Outros
    CLICS:o maior banco de dados do mundo de associações lexicais inter-linguísticas

    Distribuição global de idiomas incluídos na versão CLICS3, identificados pela família da linguagem. Crédito:S. J. Greenhill

    Cada idioma tem casos em que dois ou mais conceitos são expressos pela mesma palavra, como a palavra em inglês "voar, "que se refere ao ato de voar e ao inseto. Ao comparar os padrões nesses casos, que os lingüistas chamam de colexificações, em todas as línguas, pesquisadores podem obter insights sobre uma ampla gama de questões, incluindo a percepção humana, evolução da linguagem e contato com a linguagem. A terceira parcela do banco de dados CLICS aumenta significativamente o número de idiomas, conceitos, e fontes de dados disponíveis em versões anteriores, permitindo que os pesquisadores estudem as colexificações em escala global com detalhes e profundidade sem precedentes.

    Com fluxos de trabalho assistidos por computador detalhados, O CLICS facilita a padronização de conjuntos de dados linguísticos e fornece soluções para muitos dos desafios persistentes na pesquisa linguística. "Embora a agregação de dados geralmente se baseasse em procedimentos ad-hoc no passado, nossos novos fluxos de trabalho e diretrizes para as melhores práticas são um passo importante para garantir a reprodutibilidade da pesquisa linguística, "diz Tiago Tresoldi.

    Eficácia do CLICS demonstrada em aplicações de pesquisa

    A capacidade do CLICS de fornecer novas evidências para abordar questões de ponta em psicologia e cognição já foi ilustrada em um estudo recente publicado em Ciência , que se concentrou na codificação mundial de conceitos emocionais. O estudo comparou redes de colexificação de palavras para conceitos emocionais de uma amostra global de línguas, e revelou que os significados das emoções variam muito entre as famílias linguísticas.

    "Neste estudo, O CLICS foi usado para estudar as diferenças na codificação lexical da emoção em línguas de todo o mundo, mas o potencial do banco de dados não se limita aos conceitos de emoção. Muitas outras questões interessantes podem ser abordadas no futuro, "diz a lista Johann-Mattis.

    Rede de colexificação centrada nos conceitos "mão" e "braço". Crédito:J.-M. Lista, T. Tresoldi

    Novos padrões e fluxos de trabalho permitem a coleta reproduzível de dados lexicais globais

    Com base nas novas diretrizes para formatos de dados padronizados em pesquisas interlinguísticas, que foram apresentados pela primeira vez em 2018, a equipe do CLICS conseguiu aumentar a quantidade de dados de 300 variedades de idiomas e 1200 conceitos no banco de dados original para 3156 variedades de idiomas e 2906 conceitos na instalação atual. A nova versão também garante a reprodutibilidade do processo de agregação de dados, conformidade com as melhores práticas em gerenciamento de dados de pesquisa. "Graças aos novos padrões e fluxos de trabalho que desenvolvemos, nossos dados não são apenas FAIR (localizáveis, acessível, interoperável, e reproduzível), mas o processo de elevação de dados linguísticos de suas formas originais para nossos padrões interlinguísticos também é muito mais eficiente do que no passado, "diz Robert Forkel.

    A eficácia do fluxo de trabalho desenvolvido para CLICS foi testada e confirmada em vários experimentos de validação envolvendo uma grande variedade de acadêmicos e alunos. Duas tarefas diferentes de alunos foram realizadas, resultando na criação de novos conjuntos de dados e na melhoria progressiva dos dados existentes. Os alunos foram encarregados de trabalhar nas diferentes etapas de criação do conjunto de dados descritas no estudo, por exemplo. extração de dados, mapeamento de dados (para catálogos de referência), e identificação de fontes. "Ter pessoas de fora da equipe principal usando e testando suas ferramentas é essencial e ajuda tremendamente no ajuste fino de todos os processos, "diz Christoph Rzymski.

    Com o CLICS e seu fluxo de trabalho acessíveis a um público mais amplo, os acadêmicos não podem apenas contribuir diretamente para o banco de dados no futuro; eles também podem lucrar com o maquinário estabelecido e iniciar suas próprias coleções direcionadas. "O número de linguistas que usam ativamente nossos padrões e fluxos de trabalho está aumentando constantemente. Esperamos que o lançamento desta nova versão do CLICS os propague ainda mais, "diz Simon Greenhill.


    © Ciência https://pt.scienceaq.com