• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Química
    Nova abordagem de aprendizagem profunda prevê a estrutura da proteína a partir da sequência de aminoácidos

    O aminoácido selenocisteína, Modelo de bolas 3D. Crédito:YassineMrabet / CC BY 3.0 / Wikipedia

    Quase todos os processos biológicos fundamentais necessários à vida são realizados por proteínas. Eles criam e mantêm as formas das células e tecidos; constituem as enzimas que catalisam as reações químicas de sustentação da vida; atuam como fábricas moleculares, transportadores e motores; servir como sinal e receptor para comunicações celulares; e muito mais.

    Composto por longas cadeias de aminoácidos, as proteínas realizam essa miríade de tarefas dobrando-se em estruturas tridimensionais precisas que governam como elas interagem com outras moléculas. Como a forma de uma proteína determina sua função e a extensão de sua disfunção na doença, esforços para iluminar as estruturas das proteínas são centrais para toda a biologia molecular - e, em particular, ciência terapêutica e o desenvolvimento de medicamentos que salvam e alteram vidas.

    Nos últimos anos, métodos computacionais fizeram avanços significativos na previsão de como as proteínas se dobram com base no conhecimento de sua sequência de aminoácidos. Se totalmente realizado, esses métodos têm o potencial de transformar praticamente todas as facetas da pesquisa biomédica. Abordagens atuais, Contudo, são limitados na escala e escopo das proteínas que podem ser determinadas.

    Agora, um cientista da Harvard Medical School usou uma forma de inteligência artificial conhecida como aprendizado profundo para prever a estrutura 3-D de qualquer proteína com base em sua sequência de aminoácidos.

    Reportando online em Sistemas Celulares em 17 de abril, O biólogo de sistemas Mohammed AlQuraishi detalha uma nova abordagem para determinar computacionalmente a estrutura da proteína - alcançando precisão comparável aos métodos atuais de última geração, mas em velocidades até um milhão de vezes mais rápidas.

    "O dobramento de proteínas tem sido um dos problemas mais importantes para os bioquímicos na última metade do século, e essa abordagem representa uma maneira fundamentalmente nova de enfrentar esse desafio, "disse AlQuraishi, instrutor em biologia de sistemas no Instituto Blavatnik do HMS e membro do Laboratório de Farmacologia de Sistemas. "Agora temos um panorama totalmente novo para explorar o enovelamento de proteínas, e acho que apenas começamos a arranhar a superfície. "

    Fácil de dizer

    Embora tenha muito sucesso, processos que usam ferramentas físicas para identificar estruturas de proteínas são caros e demorados, mesmo com técnicas modernas, como microscopia crioeletrônica. Como tal, a grande maioria das estruturas de proteínas - e os efeitos das mutações causadoras de doenças nessas estruturas - ainda são amplamente desconhecidos.

    Os métodos computacionais que calculam como as proteínas se dobram têm o potencial de reduzir drasticamente o custo e o tempo necessários para determinar a estrutura. Mas o problema é difícil e permanece sem solução após quase quatro décadas de intenso esforço.

    As proteínas são construídas a partir de uma biblioteca de 20 aminoácidos diferentes. Eles agem como letras em um alfabeto, combinando em palavras, frases e parágrafos para produzir um número astronômico de textos possíveis. Ao contrário das letras do alfabeto, Contudo, aminoácidos são objetos físicos posicionados no espaço 3-D. Muitas vezes, seções de uma proteína estarão em estreita proximidade física, mas serão separadas por grandes distâncias em termos de sequência, como suas cadeias de aminoácidos formam loops, espirais, folhas e torções.

    "O que é atraente sobre o problema é que é bastante fácil de definir:pegue uma sequência e descubra a forma, "AlQuraishi disse." Uma proteína começa como uma cadeia não estruturada que deve assumir uma forma 3-D, e os possíveis conjuntos de formas em que uma corda pode se dobrar são enormes. Muitas proteínas têm milhares de aminoácidos, e a complexidade excede rapidamente a capacidade da intuição humana ou mesmo dos computadores mais poderosos. "

    Difícil de resolver

    Para enfrentar este desafio, os cientistas aproveitam o fato de que os aminoácidos interagem uns com os outros com base nas leis da física, buscando estados energeticamente favoráveis ​​como uma bola rolando colina abaixo para se estabelecer no fundo de um vale.

    Os algoritmos mais avançados calculam a estrutura da proteína executando em supercomputadores - ou poder de computação crowd-sourced no caso de projetos como Rosetta @ Home e Folding @ Home - para simular a complexa física das interações de aminoácidos por meio da força bruta. Para reduzir os enormes requisitos computacionais, esses projetos contam com o mapeamento de novas sequências em modelos predefinidos, que são estruturas de proteínas previamente determinadas por meio de experimentos.

    Outros projetos, como o AlphaFold do Google, geraram uma enorme empolgação recente ao usar os avanços da inteligência artificial para prever a estrutura de uma proteína. Para fazer isso, essas abordagens analisam enormes volumes de dados genômicos, que contêm o esquema para as sequências de proteínas. Eles procuram sequências em muitas espécies que provavelmente evoluíram juntas, usando tais sequências como indicadores de proximidade física para guiar a montagem da estrutura.

    Essas abordagens de IA, Contudo, não preveja estruturas com base apenas na sequência de aminoácidos de uma proteína. Assim, eles têm eficácia limitada para proteínas para as quais não há conhecimento prévio, proteínas evolutivas únicas ou novas proteínas projetadas por humanos.

    Treinar profundamente

    Para desenvolver uma nova abordagem, AlQuraishi aplicou o chamado aprendizado profundo diferenciado de ponta a ponta. Este ramo da inteligência artificial reduziu drasticamente o poder computacional e o tempo necessário para resolver problemas como reconhecimento de imagem e fala, habilitando aplicativos como o Siri da Apple e o Google Translate.

    Em essência, aprendizagem diferenciável envolve um único, enorme função matemática - uma versão muito mais sofisticada de uma equação de cálculo do ensino médio - organizada como uma rede neural, com cada componente da rede alimentando informações para frente e para trás.

    Esta função pode se sintonizar e se ajustar, repetidamente em níveis inimagináveis ​​de complexidade, a fim de "aprender" precisamente como uma sequência de proteínas se relaciona matematicamente com sua estrutura.

    AlQuraishi desenvolveu um modelo de aprendizado profundo, denominado uma rede geométrica recorrente, que se concentra nas principais características do enovelamento de proteínas. Mas antes que possa fazer novas previsões, deve ser treinado usando sequências e estruturas previamente determinadas.

    Para cada aminoácido, o modelo prevê o ângulo mais provável das ligações químicas que conectam o aminoácido com seus vizinhos. Ele também prevê o ângulo de rotação em torno dessas ligações, o que afeta como qualquer seção local de uma proteína está geometricamente relacionada a toda a estrutura.

    Isso é feito repetidamente, com cada cálculo informado e refinado pelas posições relativas de todos os outros aminoácidos. Assim que toda a estrutura estiver concluída, o modelo verifica a precisão de sua previsão comparando-a com a estrutura de "verdade básica" da proteína.

    Todo esse processo é repetido para milhares de proteínas conhecidas, com o modelo aprendendo e melhorando sua precisão a cada iteração.

    Nova vista

    Uma vez que seu modelo foi treinado, AlQuraishi testou seu poder preditivo. Ele comparou seu desempenho com outros métodos de vários anos recentes da Avaliação Crítica da Predição da Estrutura da Proteína - um experimento anual que testa métodos computacionais para sua capacidade de fazer previsões usando estruturas de proteínas que foram determinadas, mas não divulgadas publicamente.

    Ele descobriu que o novo modelo superou todos os outros métodos de previsão de estruturas de proteínas para as quais não existem modelos preexistentes, incluindo métodos que usam dados coevolucionários. Ele também superou todos os métodos, exceto os melhores, quando modelos preexistentes estavam disponíveis para fazer previsões.

    Embora esses ganhos de precisão sejam relativamente pequenos, AlQuraishi observa que quaisquer melhorias na extremidade superior desses testes são difíceis de alcançar. E porque este método representa uma abordagem inteiramente nova para o enovelamento de proteínas, pode complementar os métodos existentes, tanto computacional quanto físico, para determinar uma gama muito mais ampla de estruturas do que anteriormente possível.

    Surpreendentemente, o novo modelo realiza suas previsões em cerca de seis a sete ordens de magnitude mais rápido do que os métodos computacionais existentes. O treinamento do modelo pode levar meses, mas, uma vez treinado, ele pode fazer previsões em milissegundos em comparação com as horas ou dias que leva usando outras abordagens. Esta melhoria dramática é parcialmente devido à única função matemática na qual se baseia, exigindo apenas alguns milhares de linhas de código de computador para ser executado, em vez de milhões.

    A velocidade rápida das previsões deste modelo permite novos aplicativos que antes eram lentos ou difíceis de alcançar, AlQuraishi disse, como prever como as proteínas mudam de forma à medida que interagem com outras moléculas.

    "Abordagens de aprendizagem profunda, não só meu, continuará a crescer em seu poder preditivo e em popularidade, porque eles representam um mínimo, paradigma simples que pode integrar novas ideias mais facilmente do que os modelos complexos atuais, " ele adicionou.

    O novo modelo não está imediatamente pronto para uso em, dizer, descoberta ou design de drogas, AlQuraishi disse, porque sua precisão atualmente fica em torno de 6 angstroms - ainda a alguma distância dos 1 a 2 angstroms necessários para resolver a estrutura atômica completa de uma proteína. Mas existem muitas oportunidades para otimizar a abordagem, ele disse, incluindo regras de integração adicionais extraídas da química e da física.

    "A previsão precisa e eficiente do dobramento de proteínas tem sido um santo graal para o campo, e é minha esperança e expectativa que esta abordagem, combinado com todos os outros métodos notáveis ​​que foram desenvolvidos, será capaz de fazer isso em um futuro próximo, "AlQuraishi disse." Podemos resolver isso em breve, e acho que ninguém teria dito isso cinco anos atrás. É muito emocionante e também um pouco chocante ao mesmo tempo. "

    Para ajudar outros a participarem no desenvolvimento do método, AlQuraishi disponibilizou seu software e resultados gratuitamente por meio da plataforma de compartilhamento de software GitHub.

    "Uma característica notável do trabalho de AlQuraishi é que um único bolsista de pesquisa, incorporado no rico ecossistema de pesquisa da Harvard Medical School e da comunidade biomédica de Boston, pode competir com empresas como o Google em uma das áreas mais importantes da ciência da computação, "disse Peter Sorger, HMS Otto Krayer Professor de Farmacologia de Sistemas no Instituto Blavatnik em HMS, diretor do Laboratório de Farmacologia de Sistemas do HMS e mentor acadêmico de AlQuraishi.

    "Não é sensato subestimar o impacto perturbador de colegas brilhantes como AlQuraishi que trabalham com software de código aberto de domínio público, "Sorger disse.


    © Ciência https://pt.scienceaq.com