Curvas ROC dos modelos retreinados e originais em conjuntos de dados de 20 espécies de plantas. Curvas ROC do modelo de planta CPAT retreinado e sua comparação com os modelos originais para humanos e camundongos. B Curvas ROC do modelo LncFinder-planta retreinado e comparação com os modelos originais para humanos, camundongos e trigo. Curvas C ROC do modelo de planta PLEK retreinado e sua comparação com o modelo original para humanos. Crédito:Pesquisa em Horticultura (2024). DOI:10.1093/hr/uhae041 RNAs não codificantes longos (lncRNAs) são transcritos onipresentes com papéis reguladores cruciais em vários processos biológicos, incluindo remodelação da cromatina, regulação pós-transcricional e modificações epigenéticas. Embora o acúmulo de evidências elucide os mecanismos pelos quais os lncRNAs das plantas modulam o crescimento, o desenvolvimento das raízes e a dormência das sementes, sua identificação precisa permanece um desafio devido à falta de métodos específicos para plantas.
Atualmente, os principais métodos para identificação de lncRNA de plantas são amplamente desenvolvidos com base em conjuntos de dados humanos ou animais. Consequentemente, a precisão e eficácia destes métodos na previsão de lncRNAs de plantas não foram totalmente avaliadas.
Recentemente, um artigo de pesquisa intitulado "Plant-LncPipe:um pipeline computacional que fornece melhoria significativa na identificação de lncRNA de plantas", escrito por um grupo liderado por Jian-Feng Mao da Universidade Florestal de Pequim e da Universidade de Umeå, foi publicado na Horticulture Research. .
Este estudo coletou extensivamente dados de sequenciamento de RNA de alta qualidade de várias plantas e utilizou esses dados específicos de plantas para treinar novamente os modelos de três ferramentas convencionais de predição de lncRNA, nomeadamente CPAT, LncFinder e PLEK. O desempenho dos modelos retreinados foi comparado e avaliado com outras ferramentas populares de predição de lncRNA, como CPC2, CNCI, RNAplonc e LncADeep.
Os resultados demonstraram que os modelos retreinados melhoraram significativamente o desempenho de previsão para lncRNAs vegetais. Entre eles, dois modelos retreinados, LncFinder-plant e CPAT-plant, superaram outros em múltiplas métricas de avaliação, tornando-os as ferramentas mais adequadas para identificação de lncRNA de plantas.
Esta pesquisa desenvolveu um pipeline computacional denominado Plant-LncPipe para identificação e análise de lncRNAs vegetais.
Este pipeline integra dois modelos de identificação de alto desempenho, planta CPAT e planta LncFinder, permitindo um processo computacional abrangente que abrange pré-processamento de dados brutos, montagem de transcrição, identificação de lncRNA, classificação de lncRNA e origens de lncRNA. Este pipeline computacional pode ser amplamente aplicado a várias espécies de plantas. Plant-LncPipe está disponível publicamente.
O estudo demonstra que o retreinamento de modelos de predição de lncRNA em dados transcriptômicos de plantas de alta qualidade permitiu uma captura mais precisa dos recursos do lncRNA de plantas, aumentando significativamente a precisão e a confiabilidade da predição. O estudo ressaltou a importância do retreinamento específico da espécie para melhorar a precisão do modelo. A reciclagem dos modelos maduros existentes manteve a experiência e as metodologias acumuladas anteriormente, ao mesmo tempo que aumentou ainda mais a aplicabilidade e a precisão do modelo.