• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A nova estrutura traz precisão, eficiência para identificar palavras de parada

    Crédito CC0:domínio público

    Uma equipe de pesquisa liderada por Luis Amaral da Northwestern Engineering desenvolveu uma abordagem algorítmica para análise de dados que reconhece automaticamente palavras não informativas - conhecidas como palavras de parada - em uma grande coleção de texto. As descobertas podem economizar muito tempo durante o processamento de linguagem natural, bem como reduzir seu consumo de energia.

    "Um dos desafios nas abordagens de aprendizado de máquina e inteligência artificial é que você não sabe quais dados são úteis para um algoritmo e quais dados são inúteis, "disse Amaral, Erastus Otis Haven Professor de Engenharia Química e Biológica na McCormick School of Engineering. "Usando a teoria da informação, criamos uma estrutura que revela quais palavras não são informativas para a tarefa em questão. "

    O problema com palavras de parada

    Uma das técnicas mais comuns que os cientistas de dados usam no processamento de linguagem natural é o modelo de saco de palavras, que analisa as palavras em um determinado texto sem considerar a ordem em que aparecem. Para agilizar o processo, pesquisadores filtram palavras de parada, aqueles que não adicionam nenhum contexto à análise de dados. Muitas listas de palavras de parada são organizadas manualmente por pesquisadores, tornando-os demorados para desenvolver e manter, bem como difíceis de generalizar entre idiomas e disciplinas.

    "Imagine que você analise milhões de postagens de blog e queira saber a qual tópico cada postagem aborda, "disse Amaral, que codireciona o Northwestern Institute on Complex Systems. "Você normalmente filtraria palavras comuns como 'o' e 'você, 'que não fornecem qualquer base sobre o assunto. "

    Contudo, a maioria das palavras que não são úteis para essa tarefa específica depende do idioma e da área de assunto específica do blog. "Para uma coleção de blogs sobre eletrônica, por exemplo, existem muitas palavras que não permitem que um algoritmo determine se uma postagem de blog é sobre computação quântica ou semicondutores, " ele adicionou.

    Uma estrutura teórica da informação

    A equipe de pesquisa usou a teoria da informação para desenvolver um modelo que identifica palavras irrelevantes com mais precisão e eficiência. No centro do modelo está uma métrica de 'entropia condicional' que quantifica a certeza de uma determinada palavra ser informativa. Quanto mais informativa a palavra, quanto mais baixa for sua entropia condicional. Ao comparar os valores observados e esperados de entropia condicional, os pesquisadores puderam medir o conteúdo de informação de palavras específicas.

    Para testar o modelo, os pesquisadores compararam seu desempenho com abordagens de modelagem de tópicos comuns, que infere as palavras mais relacionadas a um determinado tópico, comparando-as a outro texto no conjunto de dados. Esta estrutura produziu melhor precisão e reprodutibilidade entre os textos estudados, ao mesmo tempo em que é mais aplicável a outras línguas de maneira direta. Adicionalmente, o sistema obteve um desempenho ideal usando significativamente menos dados.

    "Usando nossa abordagem, poderíamos filtrar 80 por cento ou mais dos dados e realmente aumentar o desempenho dos algoritmos existentes para classificação de tópicos de corpora de texto, "Disse Amaral." Além disso, filtrando muitos dos dados, somos capazes de reduzir drasticamente a quantidade de recursos computacionais necessários. "

    Além de economizar tempo, o sistema de filtragem pode levar a economia de energia a longo prazo, combater o impacto negativo da computação em grande escala nas mudanças climáticas.

    Um artigo descrevendo o trabalho foi publicado em 2 de dezembro na revista. Nature Machine Intelligence . Amaral foi um co-autor correspondente no artigo junto com Martin Gerlach, um pós-doutorado no laboratório de Amaral.

    Embora a análise dos pesquisadores se restringisse a abordagens de saco de palavras, Amaral está confiante de que seu sistema pode ser expandido para dar conta de características estruturais adicionais da linguagem, incluindo frases e parágrafos.

    Além disso, uma vez que a teoria da informação fornece uma estrutura geral para a análise de qualquer sequência de símbolos, o sistema dos pesquisadores pode ser aplicável além da análise de texto, apoiar métodos de pré-processamento para análise de áudio, imagens - até mesmo genes.

    "Começamos a aplicar esta abordagem à análise de dados de experimentos que medem moléculas de RNA específicas de genes em células individuais como uma forma de identificar automaticamente diferentes tipos de células, "Gerlach disse." Filtrar genes não informativos - pense neles como "genes de parada" - é particularmente promissor para aumentar a precisão. Essas medições são muito mais difíceis em comparação com os textos e as heurísticas atuais não são tão desenvolvidas. "


    © Ciência https://pt.scienceaq.com