Equipe de pesquisa desenvolve processo acelerado para melhoramento genético de características de plantas
Rajeev Ranjan, pesquisador de pós-doutorado em horticultura e arquitetura paisagística, analisa sementes geneticamente modificadas de Arabidopsis que possuem maior teor de óleo para confirmar que outras características agronomicamente importantes, incluindo tamanho da semente e semente por fruto, não são afetadas negativamente. Crédito:Purdue Agricultural Communications / Tom Campbell Pesquisadores interessados em melhorar uma determinada característica nas plantas podem agora identificar os genes que regulam a expressão da característica sem fazer nenhum experimento.
Kranthi Varala, da Purdue University, e 10 coautores publicaram os detalhes da nova ferramenta de descoberta de genes regulatórios baseada na web no Proceedings of the National Academy of Sciences . Varala tem uma patente pendente sobre os resultados relacionados à biossíntese de óleo de semente economicamente importante.
A equipe Purdue-USDA procurou construir um recurso que aprendesse, a partir de grandes quantidades de dados disponíveis publicamente, a identificar rapidamente quais genes especiais chamados fatores de transcrição regulam a expressão de uma determinada característica em várias espécies de plantas.
“Cada estudo se concentra em alguns deles”, disse Varala, professor assistente de horticultura e arquitetura paisagística. “Nossa premissa era que se pudéssemos colocar tudo isso em uma única análise, então poderíamos usar esses dados para construir algo global”.
Arabidopsis serviu como PNAS planta modelo do estudo, "mas esta abordagem não tem nada específico para Arabidopsis", disse Varala. "A abordagem é geral o suficiente para que você possa começar com um conjunto de dados de milho. Você poderia fazer isso com arroz, com tomate, qualquer cultura em que estiver trabalhando, desde que tenha milhares de medições de expressão gênica que as pessoas fizeram. E há mais de uma dúzia de espécies agora, onde temos dezenas de milhares de estudos de expressão genética”.
Para provar que o sistema funciona, a equipa concentrou-se numa via genética que regula a forma como as plantas produzem e armazenam o óleo nas suas sementes. A equipe escolheu essa característica devido à sua importância na produção de alimentos e biocombustíveis, e porque mais de 300 genes envolvidos já são conhecidos.
Ao manipular geneticamente os factores de transcrição de uma planta, os investigadores podem aumentar ou diminuir a quantidade de óleo produzido nas suas sementes.
Tal como outros investigadores, Varala desenvolveu muitos projectos ao longo dos anos em que o seu objectivo era identificar os genes e reguladores envolvidos na resolução de um problema. Isso significava conduzir experimentos cuidadosos e demorados. Mas os dados gerados não forneceram todas as respostas que ele procurava. Ele comparou isso a trabalhar em uma equação conhecendo apenas três dos 10 fatores envolvidos.
“Você não pode resolver a equação”, disse ele. Da mesma forma, Varala muitas vezes queria fazer mais perguntas do que os dados poderiam responder. Isso o motivou a construir uma estrutura que usa todos os dados possíveis para fazer essas perguntas sem ter que fazer todos os experimentos relevantes para obter uma lista de candidatos que precisam de validação genética.
“Estou tentando causar um curto-circuito na fase inicial de coleta de dados”, disse Varala, para que os cientistas possam se concentrar na condução das validações genéticas. Mas para o fazer, a sua equipa teve de começar com um conjunto de dados baseado em 18.000 estudos individuais.
Varala e sua equipe analisaram esse enorme conjunto de dados usando os supercomputadores Bell e Brown, agora aposentados, no Rosen Center for Advanced Computing de Purdue. A equipe construiu uma estrutura de aprendizado de máquina para acelerar o processo para outros.
Seria impossível para uma pessoa fazer isso manualmente. Uma equipe poderia fazer isso, mas isso introduziria preconceitos na forma como os membros do grupo processam os dados. O classificador de aprendizado de máquina opera sem preconceitos.
A novidade da abordagem é que, em vez de extrair dados relacionados a todos os órgãos, ela se concentra em conjuntos de dados específicos de órgãos. Redes genéticas independentes regulam estes órgãos – folhas, raízes, rebentos, flores e sementes.
“Em vez de usar todos os órgãos, dissemos, dentro dos experimentos com sementes que as pessoas têm feito ao longo dos anos, podemos usar todos os dados para aprender algo que está acontecendo na semente e não necessariamente na raiz, na folha ou na flor? nossa abordagem", disse Varala.
A equipe usou um método computacional chamado abordagem de inferência para prever quais fatores de transcrição regulariam o processo de biossíntese do óleo de semente em Arabidopsis.
“Aqueles que conhecemos ajudam-nos a validar que a nossa abordagem está a funcionar correctamente. Os que não conhecemos são bons candidatos para descobrir nova biologia”, disse Varala. “Esta abordagem puramente computacional não sabe nada sobre sementes, óleo ou qualquer coisa assim. Demos-lhe uma lista de genes e ele foi capaz de redescobrir os conhecidos sem conhecer qualquer contexto biológico”.
O autor principal, Rajeev Ranjan, pesquisador de pós-doutorado no Departamento de Horticultura e Arquitetura Paisagista de Purdue, pegou os outros 12 dos 20 primeiros e perguntou se essas previsões eram verdadeiras. “Conseguimos gerar linhas mutantes para onze desses doze. Cinco desses onze alteram o teor de óleo da semente”, disse ele. “Além disso, também mostramos que a superexpressão de um fator aumenta o óleo da semente em até 12%”.
Os oito genes reguladores conhecidos, somados aos oito novos, mostraram que a abordagem de inferência identificou com precisão 13 dos 20 principais candidatos. A força da abordagem é que, trabalhando apenas a partir de uma lista de genes, ela pode prever com alta precisão quais irão regular uma característica de interesse.
“Demorou muito para ser feito porque é um processo longo e complicado e não havia garantia de que funcionaria”, disse Varala sobre o projeto de quatro anos. "Nada nesta escala foi tentado antes."