Ensino de computadores para orientar a ciência:o método de aprendizado de máquina vê florestas e árvores
p Crédito CC0:domínio público
p Embora possa ser a era dos supercomputadores e "big data, "sem métodos inteligentes para extrair todos esses dados, são apenas alguns detritos digitais. Agora, pesquisadores do Laboratório Nacional Lawrence Berkeley do Departamento de Energia (Berkeley Lab) e da UC Berkeley criaram um novo método de aprendizado de máquina que permite aos cientistas derivar insights de sistemas de complexidade anteriormente intratável em tempo recorde. p Em um artigo publicado recentemente no
Anais da Academia Nacional de Ciências (
PNAS ), os pesquisadores descrevem uma técnica chamada "Florestas Aleatórias iterativas, "que eles dizem que pode ter um efeito transformador em qualquer área da ciência ou engenharia com sistemas complexos, incluindo biologia, medicina de precisão, Ciência de materiais, Ciência ambiental, e manufatura, para nomear alguns.
p "Pegue uma célula humana, por exemplo. São 10
170
possíveis interações moleculares em uma única célula. Isso cria desafios de computação consideráveis na busca de relacionamentos, "disse Ben Brown, chefe do Departamento de Biologia de Ecossistemas Moleculares do Berkeley Lab. "Nosso método permite a identificação de interações de alta ordem com o mesmo custo computacional dos efeitos principais - mesmo quando essas interações são locais com efeitos marginais fracos."
p Brown e Bin Yu, da UC Berkeley, são os principais autores do livro "Iterative Random Forests to Discover Predictive and Stable High-Order Interactions". Os co-primeiros autores são Sumanta Basu (anteriormente um pós-doutorado conjunto de Brown e Yu e agora um professor assistente na Universidade Cornell) e Karl Kumbier (um aluno de Ph.D. de Yu no Departamento de Estatística da UC Berkeley). O artigo é o culminar de três anos de trabalho que os autores acreditam que transformará a forma como a ciência é feita. "Com nosso método, podemos obter informações radicalmente mais ricas do que jamais conseguimos em uma máquina de aprendizagem, "Brown disse.
p As necessidades de aprendizado de máquina na ciência são diferentes das da indústria, onde o aprendizado de máquina foi usado para coisas como jogar xadrez, fazendo carros autônomos, e prever o mercado de ações.
p "O aprendizado de máquina desenvolvido pela indústria é ótimo se você deseja fazer negociações de alta frequência no mercado de ações, "Brown disse." Você não se importa por que é capaz de prever que a ação vai subir ou descer. Você só quer saber se pode fazer as previsões. "
p Mas na ciência, questões que envolvem por que um processo se comporta de certas maneiras são críticas. Entender o "porquê" permite que os cientistas modelem ou até mesmo desenvolvam processos para melhorar ou atingir o resultado desejado. Como resultado, o aprendizado de máquina para a ciência precisa espiar dentro da caixa preta e entender por que e como os computadores chegaram às conclusões a que chegaram. Uma meta de longo prazo é usar esse tipo de informação para modelar ou projetar sistemas para obter os resultados desejados.
p Em sistemas altamente complexos - seja uma única célula, o corpo humano, ou até mesmo um ecossistema inteiro - há um grande número de variáveis interagindo de maneiras não lineares. Isso torna difícil, senão impossível, construir um modelo que possa determinar causa e efeito. "Infelizmente, em biologia, você encontra interações de ordem 30, 40, 60 o tempo todo, "Brown disse." É completamente intratável com as abordagens tradicionais de aprendizagem estatística.
p O método desenvolvido pela equipe liderada por Brown e Yu, Florestas Aleatórias iterativas (iRF), baseia-se em um algoritmo chamado florestas aleatórias, uma ferramenta de modelagem preditiva popular e eficaz, traduzir os estados internos do aluno da caixa preta em uma forma interpretável por humanos. Sua abordagem permite que os pesquisadores busquem interações complexas, desacoplando a ordem, ou tamanho, de interações do custo computacional de identificação.
p "Não há diferença no custo computacional de detecção de uma interação de ordem 30 versus uma interação de ordem dois, "Brown disse." E isso é uma mudança radical. "
p No artigo PNAS, os cientistas demonstraram seu método em dois problemas de genômica, o papel dos potenciadores de genes no embrião da mosca da fruta e o splicing alternativo em uma linha de células derivadas de humanos. Em ambos os casos, o uso de iRF confirmou descobertas anteriores, ao mesmo tempo que revelou interações de ordem superior não identificadas anteriormente para estudo de acompanhamento.
p Brown disse que agora estão usando seu método para projetar sistemas de laser phased array e otimizar sistemas agrícolas sustentáveis.
p "Acreditamos que este é um paradigma diferente para fazer ciência, "disse Yu, um professor nos departamentos de Estatística e Engenharia Elétrica e Ciência da Computação na UC Berkeley. "Fazemos previsões, mas introduzimos estabilidade no topo da predição no iRF para aprender de forma mais confiável a estrutura subjacente nos preditores. "
p "Isso nos permite aprender como projetar sistemas para otimização orientada a objetivos e simulações direcionadas com mais precisão e experimentos de acompanhamento, "Brown acrescentou.
p Em um comentário PNAS sobre a técnica, Danielle Denisko e Michael Hoffman, da University of Toronto, escreveram:"O iRF é muito promissor como uma maneira nova e eficaz de detectar interações em uma variedade de ambientes, e seu uso nos ajudará a garantir que nenhum galho ou folha seja deixado sobre o chão. "