Os estatísticos desenvolvem um método eficiente para comparar vários grupos, dados de alta dimensão
p A figura demonstra uma aplicação do novo método na identificação da diferença entre as superfícies médias da córnea com vários graus de ceratocone que causa a deformação da córnea. Os símbolos nos colchetes após os títulos dos grupos indicam a significância estatística da diferença entre o grupo associado e o grupo normal, onde “***” significa uma diferença altamente significativa e “.” sugere uma diferença não significativa. O conjunto de dados da córnea é um exemplo de dados dimensionais elevados. O grupo normal tem 43 superfícies corneanas, enquanto o unilateral suspeita, mapa suspeito, e os grupos clínicos de ceratocone têm 14, 21 e 72 superfícies da córnea, respectivamente. Cada superfície da córnea tem 6, 912 medições. Os testes MANOVA tradicionais não são adequados para este problema. Crédito:Universidade Nacional de Cingapura
p MANOVA (análise de variância multivariada) é um método estatístico comumente usado na análise de dados para determinar se há alguma diferença nas médias dos diferentes grupos de dados. Contudo, a abordagem clássica não é adequada para analisar dados de alta dimensão. Dados de alta dimensão muitas vezes tornam os métodos tradicionais de MANOVA inválidos, uma vez que em uma MANOVA tradicional, a dimensão é considerada fixa e deve ser muito menor do que o número de observações. Em uma configuração de MANOVA de alta dimensão, isso não é mais verdade. Prof ZHANG Jin-Ting, do Departamento de Estatística e Probabilidade Aplicada, NUS e seu Ph.D. os alunos desenvolveram um novo método MANOVA de alta dimensão que pode ser usado para comparar as médias de vários grupos de dados envolvendo dados de alta dimensão de forma eficiente. p O novo método relaxa muitas condições matemáticas e restrições impostas na literatura. Um deles é o pressuposto de homocedasticidade. Esta suposição é uma condição matemática que requer que os dados de diferentes grupos tenham os mesmos padrões de variação. Seu novo método também resolve os problemas computacionais envolvidos na implementação prática da MANOVA para dados de alta dimensão. Ele faz isso utilizando cálculos de matriz de alto nível computacionalmente eficientes.
p Embora seja amplamente aplicável e tenha um bom desempenho para muitos conjuntos de dados da vida real, o método proposto pode ser menos eficaz em certas situações porque as informações de variação e correlação das variáveis não são totalmente utilizadas. Ao analisar os dados da superfície da córnea (veja a figura abaixo), a matriz de covariância associada que contém as informações de variação e correlação dos dados é calculada. Se o número de superfícies da córnea for maior do que o número de medições de uma superfície da córnea, a matriz de covariância calculada é invertível, o que significa que a estatística de teste pode ser obtida usando o teste MANOVA tradicional. Em um ambiente de alta dimensão, isso não é possível porque o número de superfícies da córnea (150 =43 + 14 + 21 + 72 amostras) é muito menor do que o número de medições (6, 912 dimensões). Contudo, as informações de variação e correlação ainda são parcialmente utilizadas na estimativa dos parâmetros da estatística de teste. O professor Zhang e sua equipe de pesquisa estão estudando isso para desenvolver melhores métodos estatísticos que possam lidar com tais situações.