Representação artística de uma célula bacteriana. Crédito:Centros para Controle e Prevenção de Doenças / James Archer
Em uma primeira vez para algoritmos de aprendizado de máquina, um novo software desenvolvido na Caltech pode prever o comportamento de bactérias lendo o conteúdo de um gene. A descoberta pode ter implicações significativas para nossa compreensão da bioquímica bacteriana e para o desenvolvimento de novos medicamentos.
Um impulso da farmacologia moderna está focado no alívio de doenças por meio do desenvolvimento de drogas que têm como alvo proteínas específicas que residem nas membranas das células do nosso corpo. Essas proteínas, conhecidas como proteínas integrais de membrana (IMP), agem como receptores ou "portões" que permitem que os materiais entrem e saiam das células. Exemplos de IMPs são receptores acoplados à proteína G, que retransmitem informações para uma célula sobre seu ambiente, e canais iônicos, que controlam o ambiente interno de uma célula agindo como porteiros que permitem seletivamente a passagem de íons para dentro e para fora da célula. IMPs são o alvo de quase 50 por cento de todos os medicamentos no mercado. Infelizmente, muitos IMPs são mal compreendidos.
"Estas são moléculas muito importantes que nosso corpo faz e sobre as quais simplesmente não sabemos o suficiente, "diz Bil Clemons, professor de bioquímica na Caltech.
A fim de obter uma compreensão mais completa de um ME, os pesquisadores precisam gerar grandes quantidades para purificação e estudo detalhado. Tipicamente, isso é feito inserindo o DNA dessa proteína nas bactérias; a proteína é então produzida naturalmente, à medida que a bactéria cresce e se multiplica. O problema é que nem todas as bactérias estão dispostas a cooperar e produzir apenas pequenas quantidades de proteína. Apenas algumas bactérias acabam produzindo proteínas suficientes para serem úteis, e, até agora, não há como os pesquisadores saberem se uma bactéria com a qual estão trabalhando será um sucesso ou um fracasso.
"Uma das principais limitações no estudo de proteínas de membrana é a falta de capacidade de expressá-las em quantidades razoáveis, "Clemons diz." Usamos essas bactérias como fábricas para fazer coisas para nós, mas é acertar ou errar ... quase sempre errar. Curiosamente, teve cerca de 10% de sucesso. "
Todas as tentativas e erros envolvidos em fazer as bactérias cooperarem consomem o tempo e os recursos dos pesquisadores. Clemons questionou se seria possível usar computadores para prever como as bactérias reagirão quando solicitadas a criar uma proteína que normalmente não produzem.
"Presumimos que as células bacterianas estavam fazendo algumas leituras quantitativas do DNA para determinar a quantidade dessas proteínas a produzir, "ele diz." Queríamos saber se poderíamos usar ferramentas computacionais para aumentar a taxa de sucesso de encontrar bactérias que expressam proteínas em quantidades úteis para nos ajudar a caracterizar moléculas importantes para a medicina. "
Clemons e seu aluno de pós-graduação, Shyam Saladi, criou essa ferramenta - um software de aprendizado de máquina que eles apelidaram de IMProve - que compara o DNA bacteriano com dados sobre a quantidade de proteína que a bactéria produz. Eles então usaram um conjunto de dados para IMProve que cultivou muitas amostras de bactérias para ver o quão bem elas produziram as proteínas de membrana desejadas. Os pesquisadores treinaram o IMProve alimentando os resultados e os códigos genéticos dos quais as bactérias se baseiam para expressar as proteínas no IMProve, para que ele pudesse aprender quais sequências de DNA resultariam em alta produção de proteínas.
Uma vez que o software foi treinado, os pesquisadores descobriram que ele previu o comportamento bacteriano tão bem que eles foram capazes de dobrar a taxa de coleta de bactérias que expressariam IMPs em grandes quantidades.
"Ficamos surpresos porque não havia garantia de que essa abordagem iria funcionar, "Clemons diz." As células são extremamente complexas, e você está pedindo um modelo estatístico relativamente simples para prever o que uma célula fará. Dessa perspectiva, foi muito chocante. "
Mas, Clemons acrescenta que, talvez seus resultados não sejam tão surpreendentes em retrospectiva.
"Isso reforça a ideia de que as células são apenas computadores, e eles estão apenas computando coisas, " ele diz.
O papel, intitulado "Um modelo estatístico para expressão de proteína de membrana melhorada usando características derivadas de sequência, "aparece na edição de 30 de março da Journal of Biological Chemistry .