Espera-se que a IA desvende segredos de genes não codificantes
Crédito:Pixabay/CC0 Domínio Público De chatbots inteligentes a aplicativos que podem escrever artigos inteiros, a Inteligência Artificial (IA) está se tornando uma parte cada vez mais onipresente em nossas vidas. Michael Schon, pesquisador associado da Wageningen University &Research, está projetando uma ferramenta de IA que pode realizar comparações de RNA não codificante em genomas de plantas. Espera-se que a ferramenta acelere e simplifique o desenvolvimento futuro de novas variedades de plantas com maior resistência à seca ou a doenças, por exemplo.
As proteínas são os blocos de construção das células dos organismos. As instruções para produzir essas proteínas são emitidas (codificadas) pelo RNA dos genes. Juntamente com estes ARN codificantes, alguns genes podem produzir ARN não codificantes:por outras palavras, ARN que não inclui instruções para produzir uma proteína.
Esse tipo de RNA também desempenha um papel importante no desenvolvimento dos organismos, diz Michael Schon. "Por exemplo, eles podem ativar genes, ou fazer o oposto e desligá-los. Isso afetará a aparência de uma planta e as propriedades que ela possui. Certos RNAs não codificantes importantes também determinam se uma planta atinge a maturidade."
Parentes da mesma família
O RNA não codificante também poderia revelar por que uma espécie de planta pertence a uma família específica, mas possui características diferentes. Em pesquisas anteriores, Schon identificou RNAs não codificantes de Arabidopsis thaliana (agrião). Esta planta é usada por cientistas de plantas como organismo modelo.
"Arabidopsis pertence à família Brassicaceae, junto com culturas importantes como brócolis, couve-flor e couve-rábano. Esta família também é conhecida como família da mostarda ou das crucíferas. No entanto, é difícil comparar RNAs não codificantes de Arabidopsis com os de outras plantas no família da mostarda porque trabalhos anteriores nestas espécies se concentraram principalmente em genes codificadores de proteínas”.
Anotação limitada de RNA não codificante
Isto significa que uma comparação entre plantas requer anotação genética separada para o RNA não codificante de cada cultura. Através de seu projeto Veni, Schon está procurando novas maneiras de identificar RNAs não codificantes usando o conhecimento de espécies relacionadas.
"Mais de 200 sequências de genoma estão disponíveis para plantas da família da mostarda. Cada genoma é armazenado como um grande arquivo de texto composto por milhões de letras que representam as bases de uma molécula de DNA (A, C, T e G). Porque o não -os bits de codificação não são catalogados (anotados) adequadamente nesses genomas, é impossível comparar todos os genes não codificantes espalhados nesta montanha de dados. Precisamos de novas estratégias e ferramentas para isso.
Uma pequena parte de cada genoma
O primeiro problema é saber onde procurar no genoma. Uma das ferramentas que Schon está desenvolvendo é algo que ele chama de GeneSketch. Para encontrar as partes correspondentes de diferentes genomas, ele está usando um método chamado Minimizer Sketch.
“A ideia por trás do Minimizer Sketch é que você só precisa olhar para um pequeno pedaço de DNA – um esboço – em vez de toda a sequência”, diz Schon. “Isso significa que você só precisa prestar atenção a alguns milhares de caracteres por genoma para realizar uma comparação, em vez de milhões.
O Minimizer Sketch foi usado anteriormente para construir uma árvore da evolução dos primatas, que inclui humanos e seus parentes mais próximos. Descobriu-se que uma árvore genealógica muito precisa de nossos ancestrais pode ser feita a partir de esboços feitos com menos de 1% de todos os genomas. Um esboço minimizador, portanto, é uma maneira muito eficiente de estimar quão semelhantes são os pedaços de DNA entre si, por isso também deve ser útil para comparar genomas dentro da família da mostarda”.
Mesma tecnologia do ChatGPT
Depois de saber para onde procurar, o próximo passo é entender o que você está vendo. A tecnologia que Schon planeja usar no GeneSketch é a mesma usada atualmente em outras ferramentas de IA, como o ChatGPT.
“É algo chamado tecnologia de ‘transformador’”, diz Schon.
"Você pode pedir a um transformador para preencher uma palavra que falta em uma frase, por exemplo. Inicialmente, o transformador fornece uma palavra aleatória porque nunca viu palavras antes. Mas se você treiná-lo em milhões de frases de exemplo, ele aprende lentamente adivinhar as palavras certas prestando atenção aos padrões do texto.
"Após o treinamento, um grande modelo de linguagem como o ChatGPT torna-se muito bom em determinadas tarefas, como responder perguntas ou traduzir de um idioma para outro. Um transformador pode ser treinado para aprender não apenas idiomas humanos, mas também a linguagem do DNA, que tem seu próprios padrões distintos, estou trabalhando em um modelo para detectar padrões no DNA de muitas espécies diferentes e traduzir esses padrões em uma linguagem que nós, como humanos, possamos entender."
O modelo deve ser treinado
Schon treinará o transformador do GeneSketch para prestar atenção em como os genes mudam nas diferentes espécies, especialmente nos genes não codificantes. Mas ele espera enfrentar alguns desafios ao longo do caminho.
"Uma questão importante é a confiabilidade. O transformador é uma tecnologia relativamente nova e comete erros. O ChatGPT, por exemplo, foi treinado em muitas fontes de texto diferentes, mas se você perguntar a ele um tópico que ele nunca viu durante o treinamento, ele precisa invente algo. Você espera que ele invente algo razoável com base nos padrões que viu, mas isso nunca é uma garantia. Obviamente, você deseja evitar resultados absurdos. Quanto mais você treina um transformador, menos absurdo ele produz. pode custar muito tempo e dinheiro. É melhor treinar o modelo completamente do zero ou construir a partir de modelos existentes?
Potencial do GeneSketch
Schon espera ter um protótipo do GeneSketch após o primeiro ano do projeto, iniciado em outubro de 2023. Ele planeja usá-lo para criar anotações genéticas para toda a família da mostarda.
A ferramenta poderá ser útil não apenas para o sector da investigação, mas também para a indústria agrícola, diz Schon. "Poderia, por exemplo, fornecer aos criadores de sementes uma forma rápida de compreender o ADN de uma cultura e dos seus parentes selvagens. Ao aprender mais sobre como as culturas foram capazes de desenvolver características únicas ao longo dos séculos, os criadores poderiam tomar decisões mais informadas para melhorar características, como tornar as culturas mais resistentes às alterações climáticas. Portanto, o impacto potencial pode ser enorme."