Crédito CC0:domínio público
Os cientistas da Johns Hopkins relatam que usaram com sucesso duas tecnologias genéticas separadas para montar a sequência do genoma mais completa até o momento de Triticum aestivum, a espécie cultivada mais comum de trigo usada para fazer pão.
Um relatório sobre a conquista foi publicado na edição de 23 de outubro da GigaScience apenas algumas semanas antes de seu relatório relacionado sobre o sequenciamento do "ancestral do pão de trigo", "Aegilops tauschii, publicado em 15 de novembro em Natureza .
Juntos, eles dizem, as sequências do genoma do trigo podem ajudar os biólogos não apenas a compreender melhor a história evolutiva do trigo, mas também avançar na busca por mais resistentes, mais tipos de trigo resistentes a pragas e secas para ajudar a alimentar a crescente população mundial.
"Depois de muitos anos tentando, finalmente conseguimos produzir uma montagem de alta qualidade deste genoma desafiador, "diz Steven Salzberg, Ph.D., Bloomberg Distinguished Professor of Biomedical Engineering na Johns Hopkins University Whiting School of Engineering e do McKusick-Nathans Institute of Genetic Medicine na Johns Hopkins University School of Medicine.
De acordo com os cientistas da Johns Hopkins, o pão de trigo tem um dos genomas mais complexos conhecidos pela ciência, contendo cerca de 16 bilhões de pares de bases de DNA e seis cópias de sete cromossomos. Por comparação, o genoma humano é cerca de cinco vezes menor, com cerca de três bilhões de pares de bases e duas cópias de 23 cromossomos. Versões publicadas anteriormente do genoma do pão e do trigo continham grandes lacunas em sua sequência de DNA altamente repetitiva.
"A natureza repetitiva deste genoma torna difícil sequenciar totalmente, "diz Salzberg." É como tentar montar um quebra-cabeça de uma cena de paisagem com um enorme céu azul. Existem muitos muito semelhantes, pequenas peças para montar. "
O genoma de pão e trigo recém-montado, que custou $ 300, 000 para o sequenciamento sozinho, levou um ano para os pesquisadores da Johns Hopkins reunirem 1,5 trilhão de bases de dados brutos em uma montagem final de 15,34 bilhões de pares de bases.
Para fazer isso, Salzberg e sua equipe usaram dois tipos de tecnologia de sequenciamento de genoma:sequenciamento de leitura curta de alto rendimento e leitura longa, sequenciamento de molécula única. Como o próprio nome indica, o sequenciamento de alto rendimento gera grandes quantidades de pares de bases de DNA de forma muito rápida e barata, embora os fragmentos sejam muito curtos - apenas 150 pares de bases para este projeto. Para ajudar a montar as áreas repetitivas, a equipe da Johns Hopkins usou em tempo real, sequenciamento de molécula única, que lê o DNA à medida que é sintetizado em um minúsculo, bem em escala nanométrica em um chip. A tecnologia permite que os cientistas leiam até 20, 000 pares de bases por vez medindo os sinais fluorescentes que são emitidos à medida que cada base de DNA é copiada.
Salzberg diz que o sequenciamento de um genoma desse tamanho requer não apenas conhecimento genético, mas também grandes recursos de computação disponíveis em relativamente poucas instituições de pesquisa ao redor do mundo. A equipe confiou muito no Centro de Computação de Pesquisa Avançada de Maryland, um centro de computação compartilhado por Hopkins e a Universidade de Maryland, que tem mais de 20, 000 núcleos de computador (CPUs) e mais de 20 petabytes de armazenamento de dados. A equipe usou aproximadamente 100 anos de CPU para montar esse genoma.
Salzberg e sua equipe também participaram do esforço colaborativo relatado na revista Nature para sequenciar um tipo ancestral de trigo, Aegilops tauschii, que é comumente referido como capim-cabra e ainda encontrado em partes da Ásia e da Europa. Seu genoma tem aproximadamente um terço do tamanho do genoma do pão de trigo, mas tem níveis semelhantes de repetição. O trabalho, feito como parte de um esforço colaborativo entre a Universidade da Califórnia, Davis; Johns Hopkins; e a Universidade da Geórgia, levou aproximadamente quatro anos para ser concluído. Usando o sequenciamento do genoma do clone ordenado, sequenciamento shotgun e mapeamento óptico do genoma, a equipe reuniu os 4,3 bilhões de nucleotídeos que compõem a sequência genética da planta. Com esta informação, o restante da equipe conseguiu identificar as sequências que compõem os genes responsáveis por características específicas da planta.