• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Uma nova abordagem complexa baseada em rede para modelagem de tópicos

    Crédito:Gerlach et al.

    Pesquisadores da Northwestern University, a Universidade de Bath, e a Universidade de Sydney desenvolveram uma nova abordagem de rede para modelos de tópicos, estratégias de aprendizado de máquina que podem descobrir tópicos abstratos e estruturas semânticas em documentos de texto.

    "Um dos principais desafios computacionais e científicos da era moderna é extrair informações úteis de textos não estruturados, "Os pesquisadores explicaram em seu estudo." Modelos de tópicos são uma abordagem popular de aprendizado de máquina que infere a estrutura tópica latente de uma coleção de documentos. "

    Modelos de tópico estão sendo usados ​​para identificar textos semanticamente relacionados e classificar documentos dentro de uma série de campos, incluindo sociologia, história, linguística, e psicologia. O método mais comumente usado, alocação de Dirichlet latente (LDA), também é usado para bibliometria, análise psicológica e política, bem como para processamento de imagem.

    Apesar de seu amplo sucesso, LDA apresenta várias falhas na forma como representa o texto, como a falta de método para escolher o número de tópicos, discrepâncias com propriedades estatísticas de textos reais e uma falta de justificativa para o prior Bayesiano, que na inferência estatística bayesiana é a distribuição de probabilidade expressa antes da evidência ser apresentada.

    Crédito:Gerlach et al.

    Uma grande parte das pesquisas recentes sobre modelos de tópicos concentrou-se na criação de versões mais sofisticadas de LDA que apresentam melhor desempenho ou podem analisar com eficácia aspectos específicos dos documentos.

    A abordagem desenvolvida por esta equipe de pesquisadores decorre da teoria das redes, uma teoria usada na física e outros campos científicos que fornece técnicas para analisar gráficos, bem como estruturas em sistemas com diferentes agentes interagindo. Sua nova estrutura para modelagem de tópicos é baseada na abordagem usada para encontrar comunidades em redes complexas, que, no contexto da teoria da rede, é um gráfico com recursos que ocorrem na modelagem de sistemas da vida real.

    "Eu estava trabalhando com linguagem natural e modelagem de tópicos da perspectiva de sistemas complexos e redes complexas, "Martin Gerlach, pós-doutorado na Northwestern University disse ao TechXplore. "Os problemas pareciam muito semelhantes, ainda assim, as comunidades da ciência da computação (modelagem de tópicos) e redes complexas pareciam funcionar de maneira amplamente independente. Sendo treinado como físico, queríamos mostrar que dois problemas aparentemente diferentes poderiam ser reduzidos à mesma matemática subjacente. "

    Gerlach e seus colegas desenvolveram uma nova abordagem para identificar estruturas tópicas que se relacionam com o problema de encontrar comunidades em redes complexas. A técnica deles representa corpora de texto como redes bipartidas, uma classe de redes complexas que dividem os nós em conjuntos X e Y, permitindo apenas conexões entre nós em conjuntos diferentes.

    Crédito:Gerlach et al.

    "Mapeamos o problema de modelagem de tópicos para o problema de detecção de comunidade em uma rede composta por palavras e documentos que mostram que são matematicamente equivalentes, "explicou Gerlach.

    A abordagem dos pesquisadores, que adapta métodos de detecção de comunidade existentes, foi considerada mais versátil e baseada em princípios do que outros modelos de tópicos existentes, por exemplo, detectar o número de tópicos presentes em textos e agrupar hierarquicamente palavras e documentos. Seu método usou um modelo de bloco estocástico (SBM), um modelo gerador para gráficos que geralmente mapeiam comunidades, subconjuntos de itens que estão conectados entre si.

    "Resolvemos alguns dos problemas intrínsecos e conhecidos de algoritmos de modelagem de tópicos populares, como LDA (por exemplo, como determinar o número de tópicos), "disse Gerlach." Além disso, nosso trabalho mostra como relacionar formalmente métodos de detecção de comunidade e modelagem de tópicos, abrindo a possibilidade de fertilização cruzada entre esses dois campos. "

    A abordagem SBM desenvolvida por Gerlach e seus colegas pode ter aplicações interessantes em outras áreas onde o aprendizado de máquina é usado, como a análise de códigos genéticos ou imagens. No futuro, os pesquisadores planejam continuar explorando o potencial de redes complexas tanto no contexto da análise de texto quanto além.

    "A equivalência entre modelagem de tópico e detecção de comunidade permite usar percepções obtidas em cada uma das comunidades e aplicar ao outro domínio, ", disse Gerlach." Espero usar esses insights para compreender melhor esses algoritmos de aprendizado de máquina; porque eles funcionam, e mais importante, sob quais condições eles não funcionam. "

    © 2018 Tech Xplore




    © Ciência https://pt.scienceaq.com