• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  Science >> Ciência >  >> Biologia
    A IA pode ajudar os pesquisadores a entender o que os vírus estão fazendo nos oceanos e no seu intestino

    Crédito:Pixabay/CC0 Domínio Público


    Os vírus são uma força misteriosa e pouco compreendida nos ecossistemas microbianos. Os pesquisadores sabem que podem infectar, matar e manipular células humanas e bacterianas em quase todos os ambientes, desde os oceanos até o intestino. Mas os cientistas ainda não têm uma visão completa de como os vírus afectam os ambientes circundantes, em grande parte devido à sua extraordinária diversidade e capacidade de evoluir rapidamente.



    Comunidades de micróbios são difíceis de estudar em laboratório. Muitos micróbios são difíceis de cultivar e o seu ambiente natural tem muito mais características que influenciam o seu sucesso ou fracasso do que os cientistas conseguem replicar num laboratório.

    Assim, biólogos de sistemas como eu sequenciam frequentemente todo o ADN presente numa amostra – por exemplo, uma amostra fecal de um paciente – separam as sequências de ADN viral e depois anotam as secções do genoma viral que codificam as proteínas. Estas notas sobre a localização, estrutura e outras características dos genes ajudam os investigadores a compreender as funções que os vírus podem desempenhar no ambiente e a identificar diferentes tipos de vírus. Os pesquisadores anotam os vírus combinando sequências virais em uma amostra com sequências previamente anotadas disponíveis em bancos de dados públicos de sequências genéticas virais.

    No entanto, os cientistas estão a identificar sequências virais no ADN recolhido no ambiente a uma taxa que ultrapassa em muito a nossa capacidade de anotar esses genes. Isto significa que os investigadores estão a publicar descobertas sobre vírus em ecossistemas microbianos usando frações inaceitavelmente pequenas de dados disponíveis.

    Para melhorar a capacidade dos pesquisadores de estudar vírus em todo o mundo, minha equipe e eu desenvolvemos uma nova abordagem para anotar sequências virais usando inteligência artificial. Através de modelos de linguagem de proteínas semelhantes a grandes modelos de linguagem como ChatGPT, mas específicos para proteínas, fomos capazes de classificar sequências virais inéditas. Isto abre a porta para os pesquisadores não apenas aprenderem mais sobre os vírus, mas também abordarem questões biológicas que são difíceis de responder com as técnicas atuais.

    Anotando vírus com IA


    Grandes modelos de linguagem usam relacionamentos entre palavras em grandes conjuntos de dados de texto para fornecer respostas potenciais a perguntas para as quais não são explicitamente "ensinadas" a resposta. Quando você pergunta a um chatbot “Qual é a capital da França?” por exemplo, o modelo não procura a resposta numa tabela de capitais. Em vez disso, está a utilizar a sua formação em enormes conjuntos de dados de documentos e informações para inferir a resposta:“A capital de França é Paris”.

    Da mesma forma, os modelos de linguagem de proteínas são algoritmos de IA treinados para reconhecer relações entre bilhões de sequências de proteínas de ambientes ao redor do mundo. Através deste treinamento, eles poderão inferir algo sobre a essência das proteínas virais e suas funções.

    Nós nos perguntamos se os modelos de linguagem de proteínas poderiam responder a esta pergunta:“Dadas todas as sequências genéticas virais anotadas, qual é a função desta nova sequência?”

    Em nossa prova de conceito, treinamos redes neurais em sequências de proteínas virais previamente anotadas em modelos de linguagem de proteínas pré-treinados e depois as usamos para prever a anotação de novas sequências de proteínas virais. Nossa abordagem nos permite investigar o que o modelo está “vendo” em uma sequência viral específica que leva a uma anotação específica. Isto ajuda a identificar proteínas candidatas de interesse com base nas suas funções específicas ou na forma como o seu genoma está organizado, peneirando o espaço de pesquisa de vastos conjuntos de dados.

    Ao identificar funções genéticas virais mais distantes, os modelos de linguagem de proteínas podem complementar os métodos atuais para fornecer novos insights sobre a microbiologia. Por exemplo, a minha equipa e eu conseguimos utilizar o nosso modelo para descobrir uma integrase anteriormente não reconhecida – um tipo de proteína que pode mover informação genética para dentro e para fora das células – nas picocianobactérias marinhas Prochlorococcus e Synechococcus, mundialmente abundantes. Notavelmente, esta integrase pode ser capaz de mover genes para dentro e para fora destas populações de bactérias nos oceanos e permitir que estes micróbios se adaptem melhor a ambientes em mudança.

    Nosso modelo de linguagem também identificou uma nova proteína do capsídeo viral que está difundida nos oceanos globais. Produzimos a primeira imagem de como os seus genes estão organizados, mostrando que pode conter diferentes conjuntos de genes que acreditamos indicarem que este vírus desempenha funções diferentes no seu ambiente.

    Estas descobertas preliminares representam apenas duas das milhares de anotações que a nossa abordagem forneceu.

    Analisando o desconhecido


    A maioria das centenas de milhares de vírus recentemente descobertos permanece não classificada. Muitas sequências genéticas virais correspondem a famílias de proteínas sem função conhecida ou nunca vistas antes. Nosso trabalho mostra que modelos semelhantes de linguagem de proteínas poderiam ajudar a estudar a ameaça e a promessa dos muitos vírus não caracterizados do nosso planeta.

    Embora o nosso estudo tenha se concentrado nos vírus nos oceanos globais, a anotação melhorada das proteínas virais é crítica para uma melhor compreensão do papel que os vírus desempenham na saúde e nas doenças do corpo humano. Nós e outros pesquisadores levantamos a hipótese de que a atividade viral no microbioma intestinal humano pode ser alterada quando você está doente. Isto significa que os vírus podem ajudar a identificar o stress nas comunidades microbianas.

    No entanto, nossa abordagem também é limitada porque requer anotações de alta qualidade. Os pesquisadores estão desenvolvendo novos modelos de linguagem de proteínas que incorporam outras “tarefas” como parte de seu treinamento, particularmente prevendo estruturas proteicas para detectar proteínas semelhantes, para torná-las mais poderosas.

    Disponibilizar todas as ferramentas de IA através dos Princípios de Dados FAIR – dados que podem ser encontrados, acessíveis, interoperáveis ​​e reutilizáveis ​​– pode ajudar os investigadores em geral a perceber o potencial destas novas formas de anotar sequências de proteínas, levando a descobertas que beneficiam a saúde humana.

    Fornecido por The Conversation


    Este artigo foi republicado de The Conversation sob uma licença Creative Commons. Leia o artigo original.




    © Ciência https://pt.scienceaq.com