Um novo modelo desenvolvido por pesquisadores do MIT cria mais ricos, representações computáveis mais facilmente de como os aminoácidos individuais determinam a função de uma proteína, que poderia ser usado para projetar e testar novas proteínas. Crédito:Massachusetts Institute of Technology
Um modelo de aprendizado de máquina de pesquisadores do MIT decompõe computacionalmente como os segmentos de cadeias de aminoácidos determinam a função de uma proteína, que poderia ajudar os pesquisadores a projetar e testar novas proteínas para o desenvolvimento de drogas ou pesquisa biológica.
As proteínas são cadeias lineares de aminoácidos, conectado por ligações peptídicas, que se dobram em estruturas tridimensionais extremamente complexas, dependendo da sequência e das interações físicas dentro da cadeia. Essa estrutura, por sua vez, determina a função biológica da proteína. Conhecendo a estrutura 3-D de uma proteína, Portanto, é valioso para, dizer, prever como as proteínas podem responder a certos medicamentos.
Contudo, apesar de décadas de pesquisa e do desenvolvimento de várias técnicas de imagem, conhecemos apenas uma fração muito pequena das estruturas possíveis de proteínas - dezenas de milhares em milhões. Os pesquisadores estão começando a usar modelos de aprendizado de máquina para prever estruturas de proteínas com base em suas sequências de aminoácidos, o que poderia permitir a descoberta de novas estruturas de proteínas. Mas isso é desafiador, como diversas sequências de aminoácidos podem formar estruturas muito semelhantes. E não há muitas estruturas nas quais treinar os modelos.
Em um artigo apresentado na Conferência Internacional sobre Representações de Aprendizagem em maio, os pesquisadores do MIT desenvolvem um método para "aprender" representações facilmente computáveis da posição de cada aminoácido em uma sequência de proteína, inicialmente usando a estrutura da proteína 3-D como um guia de treinamento. Os pesquisadores podem então usar essas representações como entradas que ajudam os modelos de aprendizado de máquina a prever as funções de segmentos de aminoácidos individuais - sem nunca mais precisar de dados sobre a estrutura da proteína.
No futuro, o modelo pode ser usado para melhorar a engenharia de proteínas, dando aos pesquisadores a chance de melhor enfocar e modificar segmentos específicos de aminoácidos. O modelo pode até mesmo desviar os pesquisadores da previsão da estrutura da proteína.
"Eu quero marginalizar a estrutura, "diz o primeiro autor Tristan Bepler, Pós-graduando no grupo de Computação e Biologia do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). "Queremos saber o que as proteínas fazem, e conhecer a estrutura é importante para isso. Mas podemos prever a função de uma proteína dada apenas sua sequência de aminoácidos? A motivação é afastar-se de estruturas de previsão específicas, e avançar no sentido de [descobrir] como as sequências de aminoácidos se relacionam com a função. "
Bonnie Berger, co-autora da Bepler, o Simons Professor de Matemática no MIT com uma posição conjunta de docente no Departamento de Engenharia Elétrica e Ciência da Computação, e chefe do grupo de Computação e Biologia.
Aprendendo com a estrutura
Em vez de predizer a estrutura diretamente - como os modelos tradicionais tentam - os pesquisadores codificaram as informações estruturais da proteína predita diretamente em representações. Para fazer isso, eles usam semelhanças estruturais conhecidas de proteínas para supervisionar seu modelo, à medida que o modelo aprende as funções de aminoácidos específicos.
Eles treinaram seu modelo em cerca de 22, 000 proteínas do banco de dados Structural Classification of Proteins (SCOP), que contém milhares de proteínas organizadas em classes por semelhanças de estruturas e sequências de aminoácidos. Para cada par de proteínas, eles calcularam uma pontuação de similaridade real, significando o quão próximos eles estão na estrutura, com base em sua classe SCOP.
Os pesquisadores então alimentaram seu modelo de pares aleatórios de estruturas de proteínas e suas sequências de aminoácidos, que foram convertidos em representações numéricas chamadas embeddings por um codificador. No processamento de linguagem natural, os embeddings são essencialmente tabelas com várias centenas de números combinados de uma forma que corresponde a uma letra ou palavra em uma frase. Os dois embeddings mais semelhantes são, é mais provável que as letras ou palavras apareçam juntas em uma frase.
No trabalho dos pesquisadores, cada incorporação no par contém informações sobre a semelhança entre cada sequência de aminoácidos. O modelo alinha os dois embeddings e calcula uma pontuação de similaridade para então prever quão semelhantes suas estruturas 3-D serão. Então, o modelo compara sua pontuação de similaridade prevista com a pontuação de similaridade SCOP real para sua estrutura, e envia um sinal de feedback para o codificador.
Simultaneamente, o modelo prevê um "mapa de contato" para cada incorporação, que basicamente diz a que distância cada aminoácido está de todos os outros na estrutura 3-D prevista da proteína - essencialmente, eles fazem contato ou não? O modelo também compara seu mapa de contato previsto com o mapa de contato conhecido do SCOP, e envia um sinal de feedback para o codificador. Isso ajuda o modelo a aprender melhor onde exatamente os aminoácidos se encaixam na estrutura de uma proteína, que atualiza ainda mais a função de cada aminoácido.
Basicamente, os pesquisadores treinam seu modelo pedindo-lhe para prever se os encaixes de sequências emparelhadas irão ou não compartilhar uma estrutura de proteína SCOP semelhante. Se a pontuação prevista do modelo estiver próxima da pontuação real, sabe que está no caminho certo; se não, ele se ajusta.
Projeto de proteína
No fim, para uma cadeia de aminoácidos inserida, o modelo produzirá uma representação numérica, ou incorporação, para cada posição de aminoácido em uma estrutura 3-D. Modelos de aprendizado de máquina podem então usar esses embeddings de sequência para prever com precisão a função de cada aminoácido com base em seu "contexto" estrutural 3-D previsto - sua posição e contato com outros aminoácidos.
Por exemplo, os pesquisadores usaram o modelo para prever quais segmentos, caso existam, passam através da membrana celular. Dado apenas uma sequência de aminoácidos, o modelo dos pesquisadores previu todos os segmentos transmembrana e não transmembrana com mais precisão do que os modelos de última geração.
"O trabalho de Bepler e Berger é um avanço significativo na representação das propriedades estruturais locais de uma sequência de proteína, "diz Serafim Batzoglou, professor de ciência da computação na Universidade de Stanford. "A representação é aprendida usando métodos de aprendizagem profunda de última geração, que fizeram grandes avanços na previsão da estrutura da proteína em sistemas como RaptorX e AlphaFold. Este trabalho tem aplicação final em saúde humana e farmacogenômica, uma vez que facilita a detecção de mutações deletérias que rompem as estruturas das proteínas. "
Próximo, os pesquisadores pretendem aplicar o modelo a mais tarefas de previsão, como descobrir quais segmentos de sequência se ligam a pequenas moléculas, o que é crítico para o desenvolvimento de medicamentos. Eles também estão trabalhando no uso do modelo para o design de proteínas. Usando seus embeddings de sequência, eles podem prever, dizer, em quais comprimentos de onda de cor uma proteína irá apresentar fluorescência.
"Nosso modelo nos permite transferir informações de estruturas de proteínas conhecidas para sequências com estrutura desconhecida. Usando nossos embeddings como recursos, podemos prever melhor a função e permitir um projeto de proteína baseado em dados mais eficiente, "Bepler diz." Em um nível alto, esse tipo de engenharia de proteínas é o objetivo. "
Berger acrescenta:"Nossos modelos de aprendizado de máquina nos permitem aprender a 'linguagem' do enovelamento de proteínas - um dos problemas originais do 'Santo Graal' - a partir de um número relativamente pequeno de estruturas conhecidas."
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.