p As tecnologias de sequenciamento de DNA de última geração inundaram bancos de dados e discos rígidos em todo o mundo com grandes conjuntos de dados, mas os pesquisadores estão obtendo o máximo que podem com esse dilúvio de dados? Em um novo estudo na edição de outubro da
Aplicações em Ciências Vegetais , Dr. Brent Berger e colegas propõem uma maneira de peneirar o ouro restante de grandes conjuntos de dados de sequência. Os autores mostram que uma nova técnica de mineração de dados pode ser usada para coletar informações valiosas de conjuntos de dados existentes, e provar o conceito recuperando a sequência de genes que influenciam as estruturas florais peculiares vistas na família de plantas Goodeniaceae. p O sequenciamento de DNA tornou-se tão barato que, mesmo que um pesquisador só esteja realmente interessado na sequência de alguns genes, frequentemente, é mais prático sequenciar apenas o genoma inteiro. As técnicas de bioinformática podem escolher a sequência de genes desejada mais tarde, com menos complicações do que direcionar genes específicos para a sequência. Esta prática, conhecido como "genoma skimming, "tornou-se uma forma cada vez mais popular de responder a perguntas sobre as relações entre as espécies de plantas.
p A premissa da análise do genoma é usar o sequenciamento shotgun de baixa cobertura para recuperar a sequência de DNA de frações de alta cópia do genoma. No sequenciamento de espingarda, o genoma é dividido em pequenos pedaços para sequenciamento, e depois costurados de volta computacionalmente usando as sobreposições entre os pedaços, um processo chamado montagem. A quantidade de "cobertura" corresponde a quantos desses pequenos pedaços são sequenciados; quanto maior a cobertura, mais fácil é costurar o genoma de volta, resultando em uma sequência de genoma mais completa.
p Mas uma cobertura mais alta é mais cara, e algumas perguntas podem ser respondidas com um método mais barato, execução de sequenciamento de baixa cobertura. "Frações de alta cópia" do DNA genômico total, como genomas de cloroplasto ou DNA ribossômico nuclear, estão em maior abundância no pool de sequência, e assim pode ser totalmente sequenciado, mesmo barato, execuções de baixa cobertura. Seqüências dessas frações genômicas de alto número de cópias são normalmente usadas para resolver relações evolutivas entre diferentes espécies e grupos. Mas no processo de leitura do genoma, os pesquisadores produzem e depois descartam grandes quantidades de dados de sequência potencialmente valiosos. "Muitos conjuntos de dados de análise de genoma são usados para montar o genoma do cloroplasto, que no nosso caso, usou apenas 3% dos dados sequenciados, "observou a Dra. Dianella Howarth, um co-autor do estudo.
p Neste estudo, os autores deram uma segunda olhada em um conjunto de dados de análise de genoma usado anteriormente para resolver as relações evolutivas em Goodeniaceae, uma família de plantas comumente chamadas de "flores em leque" ou "meias flores" devido ao seu formato de flor intrigante, que parece que alguém cortou a flor ao meio. Os autores queriam ver se esse conjunto de dados de análise do genoma poderia ser examinado para obter mais informações sobre a genética por trás dessa estrutura floral única. Eles usaram vários pacotes de software para montar fragmentos de sequência anteriormente não utilizados da fração de baixa cópia do conjunto de dados original de skimming do genoma. Eles então procuraram a montagem resultante para a sequência de um conjunto de genes chamados
CYCLOIDEA genes, que estão envolvidos na estrutura e simetria floral.
p Os autores conseguiram recuperar porções suficientes dos genes, de várias espécies, para criar alinhamentos completos de todos os quatro
CYCLOIDEA genes no núcleo Goodeniaceae. Esses dados podem ser úteis para estudos futuros sobre a evolução da bizarra estrutura floral vista neste grupo. "Comparando sequências de
CYCLOIDEA - genes semelhantes a este clado podem fornecer pistas sobre as mudanças precisas na sequência que resultam em mudanças na morfologia floral, "explicou o Dr. Howarth.
p De forma geral, Dr. Howarth continuou, "Pedaços de qualquer gene de interesse podem ser potencialmente extraídos de conjuntos de dados de análise de genoma que já foram concluídos." Um pedaço de um gene pode não parecer muito, mas há um número surpreendente de usos para esses fragmentos. "Esses dados podem fornecer informações suficientes para determinar regiões nucleares úteis para análises filogenéticas ou apontar possíveis eventos de duplicação de genes. sondas para sequenciamento de enriquecimento de alvo poderiam ser geradas rapidamente em um clado para examinar genes candidatos e suas regiões regulatórias em estudos de evo-devo. "
p Abordagens de mineração de dados como essas permitem um uso muito mais completo de conjuntos de dados de análise de genoma. Isso permite que perguntas importantes sejam respondidas com os dados existentes, e abre a porta para cientistas sem acesso aos recursos para produzir conjuntos de dados em grande escala, por exemplo, cientistas em faculdades menores ou países sem grandes órgãos doadores. À medida que os dados da sequência de DNA continuam a inundar, estudos como este indicam maneiras de evitar que informações valiosas passem despercebidas.