Para demonstrar que o DEFT pode ser aplicado a uma variedade de pequenos conjuntos de dados, Os cientistas do CSHL o usaram para analisar dados do detector CMS Higgs Boson. De 60 impressões de partículas, O DEFT estimou que até seis eram de eventos reais. (Na foto:uma perspectiva 3D de um evento do Boson de Higgs registrado em 2012. As impressões são caracterizadas por torres verdes e linhas vermelhas.) Crédito:McCauley, T; Taylor, EU; CERN
Big Data está na moda hoje, mas Small Data também é importante! Tirar conclusões confiáveis de pequenos conjuntos de dados, como aqueles de ensaios clínicos para doenças raras ou em estudos de espécies ameaçadas de extinção, continua sendo um dos obstáculos mais complicados nas estatísticas. Agora, Os pesquisadores do Cold Spring Harbor Laboratory (CSHL) desenvolveram uma nova maneira de analisar pequenos dados, um inspirado por métodos avançados em física teórica, mas disponível como software fácil de usar.
"Lidar com pequenos conjuntos de dados é uma parte fundamental de fazer ciência, "O professor assistente da CSHL Justin Kinney explicou. O desafio é que, com muito poucos dados, não é apenas difícil chegar a uma conclusão; também é difícil determinar o quão certas são suas conclusões.
"É importante não apenas produzir a melhor estimativa para o que está acontecendo, mas também para dizer, 'Este palpite provavelmente está correto, '"disse Kinney.
Um bom exemplo são os ensaios clínicos de medicamentos.
"Quando cada ponto de dados é um paciente, você sempre estará lidando com pequenos conjuntos de dados, e por boas razões, "ele disse." Você não quer testar um tratamento em mais pessoas do que o necessário antes de determinar se a droga é segura e eficaz. É muito importante poder tomar essas decisões com o mínimo de dados possível. "
Quantificar essa certeza tem sido difícil devido às suposições que os métodos estatísticos comuns fazem. Essas suposições eram necessárias quando os métodos padrão foram desenvolvidos, antes da era do computador. Mas essas aproximações, Kinney observa, "pode ser catastrófico" em pequenos conjuntos de dados.
Topo:Número de eventos de partículas do Boson de Higgs esperados com base nas simulações do Modelo Padrão.
Embaixo:DEFT foi usado para prever suavemente (preto) quantos eventos de decaimento de 4-leptons eram indicadores de um verdadeiro evento do Bóson de Higgs dentro de uma margem de incerteza (verde). Crédito:Kinney Lab / CSHL
Agora, O laboratório de Kinney desenvolveu uma abordagem computacional moderna chamada Density Estimation using Field Theory, ou DEFT, que corrige essas deficiências. DEFT está disponível gratuitamente por meio de um pacote de código aberto chamado SUFTware.
Em seu artigo recente, publicado em Cartas de revisão física , O laboratório de Kinney demonstra DEFT em dois conjuntos de dados:estatísticas nacionais de saúde compiladas pela Organização Mundial da Saúde, e traços de partículas subatômicas usadas pelos físicos do Large Hadron Collider para revelar a existência da partícula do bóson de Higgs.
Kinney diz que ser capaz de aplicar DEFT a situações tão drasticamente diversas do "mundo real" - apesar de seus cálculos serem inspirados pela física teórica - é o que torna a nova abordagem tão poderosa.
"Flexibilidade é uma coisa muito boa ... Agora estamos adaptando o DEFT para problemas de análise de sobrevivência, o tipo de estatística usada em ensaios clínicos, "Kinney disse." Esses novos recursos serão adicionados ao SUFTware à medida que continuamos a desenvolver esta nova abordagem para estatísticas. "