Quando os pesquisadores não têm as proteínas de que precisam, eles podem fazer com que a IA alucine novas estruturas
As cadeias de aminoácidos se dobram em proteínas. Crédito:LadyofHats/Wikimedia Commons
Todos os organismos vivos usam proteínas, que englobam um grande número de moléculas complexas. Eles desempenham uma ampla gama de funções, desde permitir que as plantas usem a energia solar para a produção de oxigênio até ajudar seu sistema imunológico a lutar contra patógenos e permitir que seus músculos realizem trabalho físico. Muitos medicamentos também são baseados em proteínas.
Para muitas áreas de pesquisa biomédica e desenvolvimento de medicamentos, no entanto, não existem proteínas naturais que possam servir como pontos de partida adequados para construir novas proteínas. Pesquisadores que projetam novos medicamentos para prevenir a infecção por COVID-19, ou desenvolvem proteínas que podem ativar ou desativar genes ou transformar células em computadores, tiveram que criar novas proteínas do zero.
Esse processo de design de proteína de novo pode ser difícil de acertar. Engenheiros de proteínas como eu vêm tentando descobrir maneiras de projetar com mais eficiência e precisão novas proteínas com as propriedades de que precisamos.
Felizmente, uma forma de inteligência artificial chamada aprendizado profundo pode fornecer uma maneira elegante de criar proteínas que não existiam anteriormente – alucinação.
Projetando proteínas do zero As proteínas são compostas de centenas a milhares de blocos de construção menores chamados aminoácidos. Esses aminoácidos estão conectados uns aos outros em longas cadeias que se dobram para formar uma proteína. A ordem em que esses aminoácidos estão conectados uns aos outros determina a estrutura e a função únicas de cada proteína.
O maior desafio que os engenheiros de proteínas enfrentam ao projetar novas proteínas é criar uma estrutura de proteína que desempenhe uma função desejada. Para contornar esse problema, os pesquisadores normalmente criam modelos de design baseados em proteínas naturais com uma função semelhante. Esses modelos têm instruções sobre como criar as dobras exclusivas de cada proteína em particular. No entanto, como um modelo deve ser criado para cada dobra individual, essa estratégia é demorada, trabalhosa e limitada pelas proteínas disponíveis na natureza.
Novas proteínas criadas do zero podem ser implantadas para enfrentar uma ampla gama de desafios ambientais e médicos. Nos últimos anos, vários grupos de pesquisa, incluindo o laboratório em que trabalho, desenvolveram várias redes neurais profundas dedicadas – programas de computador que usam várias camadas de processamento para “aprender” com dados de entrada para fazer previsões sobre uma saída desejada.
Quando a saída desejada é uma nova proteína, milhões de parâmetros que descrevem diferentes facetas de uma proteína são colocados na rede. O que está previsto é uma sequência de aminoácidos escolhida aleatoriamente mapeada na estrutura 3D mais provável que essa sequência tomaria.
As previsões de rede para uma sequência aleatória de aminoácidos são confusas, o que significa que a estrutura final da proteína não é muito clara, enquanto as proteínas naturais e as proteínas construídas do zero produzem estruturas proteicas muito mais bem definidas.
Alucinação de novas proteínas Essas observações sugerem uma maneira pela qual novas proteínas podem ser geradas a partir do zero – ajustando entradas aleatórias na rede até que as previsões produzam uma estrutura bem definida.
O método de geração de proteínas que meus colegas e eu desenvolvemos é conceitualmente semelhante aos métodos de visão computacional, como o DeepDream do Google, que encontra e aprimora padrões em imagens.
Esses métodos funcionam pegando redes treinadas para reconhecer rostos humanos ou outros padrões em imagens, como a forma de um animal ou um objeto, e invertendo-os para que aprendam a reconhecer esses padrões onde eles não existem. No DeepDream, por exemplo, a rede recebe imagens de entrada arbitrárias que são ajustadas até que a rede possa reconhecer um rosto ou alguma outra forma na imagem. Embora a imagem final não pareça muito com um rosto para uma pessoa olhando para ela, seria para a rede neural.
As redes neurais profundas também podem aprender a alucinar imagens a partir de palavras. Os produtos dessa técnica são muitas vezes chamados de alucinações, e isso é o que chamamos de nossas proteínas projetadas também.
Nosso método começa passando uma sequência aleatória de aminoácidos através de uma rede neural profunda. As previsões resultantes são inicialmente embaçadas, com estruturas pouco claras, como esperado para sequências aleatórias. Em seguida, introduzimos uma mutação que transforma um aminoácido da cadeia em um diferente e passamos essa nova sequência pela rede novamente. Se essa mudança dá à proteína uma estrutura mais definida, então mantemos o aminoácido e introduzimos outra mutação na sequência.
A cada repetição desse processo, as proteínas se aproximam cada vez mais da forma real que teriam se fossem produzidas na natureza. Milhares de repetições são necessárias para criar uma proteína totalmente nova.
Usando esse processo, geramos 2.000 novas sequências de proteínas previstas para dobrar em estruturas bem definidas. Destes, selecionamos mais de 100 que eram os mais distintos em forma para recriar fisicamente no laboratório. Finalmente, escolhemos três dos principais candidatos para uma análise detalhada e confirmamos que eles eram parecidos com as formas previstas por nossos modelos alucinados.
Por que alucinar novas proteínas? Nossa abordagem de alucinação simplifica muito o pipeline de design de proteínas. Ao eliminar a necessidade de modelos, os pesquisadores podem se concentrar diretamente na criação de uma proteína com base nas funções desejadas e deixar que a rede cuide de descobrir a estrutura para elas.
Nosso trabalho abre vários caminhos para os pesquisadores explorarem. Nosso laboratório está atualmente investigando a melhor forma de usar essa abordagem de alucinação para gerar ainda mais especificidade na função de proteínas projetadas. Nossa abordagem também pode ser prontamente estendida para projetar novas proteínas usando outras redes neurais profundas recentemente desenvolvidas.
As aplicações potenciais de proteínas de novo são vastas. Com redes neurais profundas, os pesquisadores poderão criar ainda mais proteínas que podem quebrar plásticos para reduzir a poluição ambiental, identificar e responder a células não saudáveis e melhorar as vacinas contra patógenos novos e existentes – apenas para citar alguns.