• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Biologia
    Novo método estatístico para avaliar a reprodutibilidade em estudos de organização do genoma
    p Representação esquemática do método HiCRep. HiCRep usa duas etapas para avaliar com precisão a reprodutibilidade dos dados de experimentos Hi-C. Etapa 1:os dados dos experimentos Hi-C (representados em gráficos de triângulo) são primeiro suavizados para permitir que os pesquisadores vejam as tendências nos dados com mais clareza. Etapa 2:os dados são estratificados com base na distância para contabilizar a superabundância de interações próximas em dados Hi-C. Crédito:Li Laboratory, Penn State University

    p Um novo método estatístico para avaliar a reprodutibilidade dos dados do Hi-C - uma ferramenta de ponta para estudar como o genoma funciona em três dimensões dentro de uma célula - ajudará a garantir que os dados nesses estudos de "big data" sejam confiáveis. p "Hi-C captura as interações físicas entre diferentes regiões do genoma, "disse Qunhua Li, professor assistente de estatística na Penn State e autor principal do artigo. "Essas interações desempenham um papel na determinação do que torna uma célula muscular uma célula muscular em vez de um nervo ou célula cancerosa. No entanto, As medidas padrão para avaliar a reprodutibilidade dos dados muitas vezes não podem dizer se duas amostras vêm do mesmo tipo de célula ou de tipos de células completamente não relacionados. Isso torna difícil avaliar se os dados são reproduzíveis. Desenvolvemos um novo método para avaliar com precisão a reprodutibilidade dos dados Hi-C, o que permitirá aos pesquisadores interpretar com mais confiança a biologia dos dados. "

    p O novo método, chamado HiCRep, desenvolvido por uma equipe de pesquisadores da Penn State e da University of Washington, é o primeiro a ser responsável por uma característica única dos dados Hi-C - as interações entre regiões do genoma que estão próximas são muito mais prováveis ​​de acontecer por acaso e, portanto, criar espúrios, ou falso, similaridade entre amostras não relacionadas. Um artigo descrevendo o novo método aparece na revista Genome Research .

    p "Com a enorme quantidade de dados que estão sendo produzidos em estudos de genoma completo, é vital garantir a qualidade dos dados, "disse Li." Com tecnologias de alto rendimento como Hi-C, estamos em posição de obter novos insights sobre como o genoma funciona dentro de uma célula, mas apenas se os dados forem confiáveis ​​e reproduzíveis. "

    p Dentro do núcleo de uma célula existe uma grande quantidade de material genético na forma de cromossomos - moléculas extremamente longas feitas de DNA e proteínas. Os cromossomos, que contêm genes e as sequências regulatórias de DNA que controlam quando e onde os genes são usados, são organizados e empacotados em uma estrutura chamada cromatina. O destino da célula, se se torna um músculo ou célula nervosa, por exemplo, depende, pelo menos em parte, em que partes da estrutura da cromatina são acessíveis para os genes a serem expressos, quais partes estão fechadas, e como essas regiões interagem. HiC identifica essas interações bloqueando as regiões de interação do genoma juntas, isolando-os, e sequenciá-los para descobrir de onde vieram no genoma.

    p O método HiCRep é capaz de reconstruir com precisão a relação biológica entre diferentes tipos de células, onde outros métodos falham. Crédito:Li Laboratory, Penn State University

    p "É como uma tigela gigante de espaguete em que cada lugar em que o macarrão toca pode ser uma interação biologicamente importante, "disse Li." Hi-C encontra todas essas interações, mas a grande maioria deles ocorre entre regiões do genoma que estão muito próximas umas das outras nos cromossomos e não têm funções biológicas específicas. Uma consequência disso é que a força dos sinais depende fortemente da distância entre as regiões de interação. Isso torna extremamente difícil para as medidas de reprodutibilidade comumente usadas, como coeficientes de correlação, para diferenciar os dados Hi-C porque esse padrão pode ser muito semelhante, mesmo entre tipos de células muito diferentes. Nosso novo método leva esse recurso do Hi-C em consideração e nos permite distinguir de forma confiável diferentes tipos de células. "

    p "Isso nos ensina novamente uma lição estatística básica que muitas vezes é esquecida no campo, "disse Li." Muitas vezes, a correlação é tratada como um proxy de reprodutibilidade em muitas disciplinas científicas, mas na verdade não são a mesma coisa. Correlação é sobre quão fortemente dois objetos estão relacionados. Dois objetos irrelevantes podem ter alta correlação por estarem relacionados a um fator comum. Este é o caso. A distância é o fator comum oculto nos dados Hi-C que conduz a correlação, fazendo com que a correlação deixe de refletir as informações de interesse. Ironicamente, enquanto este fenômeno, conhecido como efeito de confusão em termos estatísticos, é discutido em todos os cursos básicos de estatística, ainda é bastante impressionante ver quantas vezes é esquecido na prática, mesmo entre cientistas bem treinados. "

    p Os pesquisadores projetaram o HiCRep para contabilizar sistematicamente esse recurso dependente da distância dos dados Hi-C. Para conseguir isso, os pesquisadores primeiro suavizam os dados para permitir que vejam as tendências nos dados com mais clareza. Eles então desenvolveram uma nova medida de similaridade que é capaz de distinguir mais facilmente os dados de diferentes tipos de células, estratificando as interações com base na distância entre as duas regiões. “É como estudar o efeito do tratamento medicamentoso para uma população com idades muito diferentes. A estratificação por idade nos ajuda a focar no efeito do medicamento. a estratificação pela distância nos ajuda a focar na verdadeira relação entre as amostras. "

    p Para testar seu método, a equipe de pesquisa avaliou dados Hi-C de vários tipos de células diferentes usando HiCRep e dois métodos tradicionais. Onde os métodos tradicionais foram detonados por correlações espúrias com base no excesso de interações próximas, HiCRep foi capaz de diferenciar os tipos de células de forma confiável. Adicionalmente, HiCRep poderia quantificar a quantidade de diferença entre os tipos de células e reconstruir com precisão quais células estavam mais intimamente relacionadas entre si.


    © Ciência https://pt.scienceaq.com