• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A nova abordagem de IA preenche a lacuna de dados reduzida que pode bloquear as abordagens de aprendizado profundo

    A rede de aprendizagem profunda da PNNL lida com problemas difíceis de química com a ajuda de um pré-treinamento. Crédito:Timothy Holland / PNNL

    Os cientistas desenvolveram uma rede neural profunda que contorna um problema que tem atormentado os esforços para aplicar a inteligência artificial para lidar com a química complexa - uma escassez de dados químicos precisamente rotulados. O novo método oferece aos cientistas uma ferramenta adicional para aplicar o aprendizado profundo para explorar a descoberta de drogas, novos materiais para fabricação, e uma série de outras aplicações.

    Prever propriedades químicas e reações entre milhões e milhões de compostos é uma das tarefas mais assustadoras que os cientistas enfrentam. Não há nenhuma fonte de informação completa a partir da qual um programa de aprendizado profundo possa se basear. Usualmente, a falta de uma grande quantidade de dados limpos é um empecilho para um projeto de aprendizado profundo.

    Cientistas do Laboratório Nacional do Noroeste do Pacífico, do Departamento de Energia, descobriram uma maneira de contornar o problema. Eles criaram um sistema de pré-treinamento, uma espécie de tutorial rápido onde eles equipam o programa com algumas informações básicas sobre química, equipá-lo para aprender com suas experiências, em seguida, desafie o programa com enormes conjuntos de dados.

    O trabalho foi apresentado no KDD2018, a Conferência sobre Descoberta de Conhecimento e Mineração de Dados, em Londres.

    Gatos, cachorros, e dados limpos

    Para redes de aprendizagem profunda, dados abundantes e claros sempre foram a chave para o sucesso. No diálogo gato x cachorro que anima as discussões sobre sistemas de IA, pesquisadores reconhecem a importância de "dados rotulados - uma foto de um gato é marcada como um gato, um cachorro é marcado como um cachorro, e assim por diante. Tendo muitos, muitas fotos de gatos e cachorros, claramente marcado como tal, é um bom exemplo do tipo de dados que os cientistas de IA gostam de ter. As fotos fornecem pontos de dados claros que uma rede neural pode usar para aprender à medida que começa a diferenciar cães e gatos.

    Crédito:Pacific Northwest National Laboratory

    Mas a química é mais complexa do que separar gatos de cachorros. Centenas de fatores afetam a promiscuidade de uma molécula, e milhares de interações podem acontecer em um segundo. Os pesquisadores de IA em química frequentemente se deparam com conjuntos de dados pequenos, mas completos, ou conjuntos de dados enormes, mas inconsistentes - pense em 100 imagens nítidas de chihuahuas ou 10 milhões de imagens de bolhas peludas. Nenhum deles é ideal ou mesmo viável sozinho.

    Então, os cientistas criaram uma maneira de preencher a lacuna, combinando o melhor de "dados simples, mas bons" com "dados grandes, mas pobres".

    O time, liderado pelo ex-cientista do PNNL Garrett Goh, empregou uma técnica conhecida como aprendizagem supervisionada baseada em regras. Os cientistas apontam a rede neural para um vasto repositório de dados químicos conhecido como ChEMBL, e eles geram rótulos baseados em regras para cada uma dessas muitas moléculas, por exemplo, calculando a massa da molécula. A rede neural analisa os dados brutos, aprender princípios de química que relacionam a molécula a impressões digitais químicas básicas. Usando a rede neural treinada nos dados baseados em regras, os cientistas o apresentaram com o pequeno, mas de alta qualidade, conjunto de dados contendo as propriedades finais a serem previstas.

    O pré-treinamento valeu a pena. O programa, chamado ChemNet, alcançou um nível de conhecimento e precisão tão preciso ou mais do que os melhores modelos de aprendizado profundo disponíveis ao analisar moléculas quanto à sua toxicidade, seu nível de atividade bioquímica relacionada ao HIV, e seu nível de um processo químico conhecido como solvatação. O programa fez isso com muito menos dados rotulados do que seus homólogos e alcançou os resultados com menos computação, o que se traduz em desempenho mais rápido.


    © Ciência https://pt.scienceaq.com