Um novo algoritmo traduz o conhecimento simbólico em espaços vetoriais para combinar o raciocínio dedutivo com o aprendizado de máquina. Crédito:Maxat Kulmanov
Uma estrutura matemática que preenche a lacuna entre o conhecimento legível de alto nível e os dados estatísticos foi desenvolvida por uma equipe da KAUST e deve melhorar o aprendizado de máquina.
Os humanos dependem de padrões, rótulos e ordem para dar sentido ao mundo. Nós categorizamos, classificar e fazer ligações entre coisas e ideias relacionadas, criando símbolos que podemos usar para compartilhar informações. Inteligência artificial, por outro lado, é treinado de forma mais eficaz usando dados numéricos brutos. Quão, então, podem os algoritmos de inteligência artificial fazer uso de nosso vasto estoque de conhecimento simbólico? Este é um problema irritante e que, se rachado, poderia abrir uma enorme nova biblioteca multidimensional para aprendizado de máquina e inteligência artificial.
Robert Hoehndorf, Maxat Kulmanov e seus colaboradores noComputational Bioscience Research Center e na Halifax University, Canadá, desenvolveram uma ponte matemática entre essas formas aparentemente incompatíveis de informação.
"Há uma grande lacuna na pesquisa de inteligência artificial entre as abordagens baseadas em representações simbólicas de alto nível compreensíveis por humanos e as abordagens subsimbólicas usadas para treinar redes neurais artificiais, "explica Kulmanov." Abordagens simbólicas são construídas em relações lógicas, enquanto as abordagens subsimbólicas dependem de estatísticas e espaços vetoriais contínuos com numeração real. "
Os pesquisadores decidiram desenvolver uma função de "incorporação" que mapeia uma estrutura matemática para outra de uma forma que preserva algumas das características da primeira estrutura.
"Embeddings são usados porque a segunda estrutura pode ser mais adequada para algumas operações, "diz Hoehndorf." Neste trabalho, mapeamos uma linguagem formal, chamada de lógica de descrição, em um espaço vetorial de número real, que pode ser usado mais facilmente para aprendizado de máquina, tais como similaridade de computação e execução de operações preditivas. "
Lógicas de descrição são amplamente utilizadas em biologia e biomedicina para descrever teorias formalizadas, como as funções dos genes e a terminologia usada no diagnóstico médico.
"Lógica, como a lógica de descrição, têm sido a base para sistemas de inteligência artificial desde 1960 e têm sido estudados em matemática por mais de 100 anos, "diz Hoehndorf." Com base nessa história da pesquisa, criamos uma função de incorporação que não apenas projeta símbolos em um espaço vetorial, mas também gera modelos algébricos para capturar a semântica dos símbolos dentro da lógica de descrição. "
A chave para o sucesso da equipe é vincular a incorporação à teoria do modelo, o que tornou possível aproveitar o conhecimento estabelecido e criar o primeiro embedding que preserva a semântica.
"Nosso método é diretamente aplicável a centenas de teorias formalizadas em pesquisa biológica e biomédica e centenas de bancos de dados biológicos, "diz Kulmanov." No futuro, vamos aplicar nosso método a mais problemas em biologia, que esperamos que melhore as aplicações biomédicas da inteligência artificial. "