Nova estrutura de aprendizagem profunda multitarefa integra dados proteômicos e transcriptômicos unicelulares em grande escala
Integração do atlas de células COVID-19. Crédito:Ciência Avançada (2024). DOI:10.1002/advs.202307835 O progresso exponencial nas tecnologias multiômicas unicelulares levou ao acúmulo de grandes e diversos conjuntos de dados multiômicos. No entanto, a integração de dados proteômicos e transcriptômicos (ou epigenômicos) unicelulares representa um desafio significativo para os métodos existentes. Vários modelos baseados em transformadores, como o Geneformer, mudaram significativamente o paradigma da análise do transcriptoma unicelular. No entanto, esses métodos impõem demandas significativas aos recursos computacionais.
Para enfrentar esses desafios, pesquisadores do Jardim Botânico de Wuhan da Academia Chinesa de Ciências desenvolveram um método baseado em transformador, chamado scmFormer, para integrar dados proteômicos e transcriptômicos unicelulares em grande escala usando um transformador multitarefa. O estudo intitulado "scmFormer integra dados de proteômica e transcriptômica de célula única em grande escala por transformador multitarefa" foi publicado na Advanced Science .
Os pesquisadores apresentaram uma avaliação abrangente e fizeram estudos de caso deste método, os resultados mostraram que o scmFormer exibiu notável proficiência na harmonização de conjuntos de dados ômicos unicelulares em larga escala e proteômicos tanto no tipo de célula quanto no nível de célula em escala mais refinada com recursos computacionais limitados.
Além disso, o scmFormer possui a capacidade de integrar vários conjuntos de dados multimodais emparelhados de células únicas, levando ao duplo benefício de redução de alto custo e melhores insights biológicos.
Além disso, o scmFormer mostra uma excelente capacidade de eliminar diferenças técnicas entre diferentes modalidades ômicas, preservando ao mesmo tempo a informação biológica subjacente inerente aos dados, abrangendo tanto os tipos de células quanto as condições experimentais.
A aplicação do scmFormer para a integração de dois conjuntos de dados COVID-19 com 1,48 milhão de células demonstrou ainda mais a vantagem distinta do scmFormer para lidar com grandes conjuntos de dados em laptops normais.