Os pesquisadores do MIT desenvolveram um modelo de aprendizado de máquina que agrupa os pacientes em subpopulações por estado de saúde para prever melhor o risco de um paciente morrer durante sua permanência na UTI. Essa técnica supera os modelos "globais" de previsão de mortalidade e revela disparidades de desempenho desses modelos em subpopulações específicas de pacientes. Crédito:Massachusetts Institute of Technology
Em unidades de terapia intensiva, onde os pacientes chegam com uma ampla gama de problemas de saúde, a triagem depende muito do julgamento clínico. A equipe da UTI executa vários testes fisiológicos, como exames de sangue e verificação de sinais vitais, para determinar se os pacientes estão em risco imediato de morrer se não forem tratados agressivamente.
Digite:aprendizado de máquina. Numerosos modelos foram desenvolvidos nos últimos anos para ajudar a prever a mortalidade do paciente na UTI, com base em vários fatores de saúde durante a sua estadia. Esses modelos, Contudo, têm desvantagens de desempenho. Um tipo comum de modelo "global" é treinado em uma única grande população de pacientes. Isso pode funcionar bem em média, mas mal em algumas subpopulações de pacientes. Por outro lado, outro tipo de modelo analisa diferentes subpopulações - por exemplo, aqueles agrupados por condições semelhantes, idade do paciente, ou departamentos de hospitais - mas geralmente têm dados limitados para treinamento e testes.
Em um artigo apresentado recentemente na conferência Proceedings of Knowledge Discovery and Data Mining, Os pesquisadores do MIT descrevem um modelo de aprendizado de máquina que funciona como o melhor dos dois mundos:ele treina especificamente em subpopulações de pacientes, mas também compartilha dados em todas as subpopulações para obter melhores previsões. Ao fazer isso, o modelo pode prever melhor o risco de mortalidade de um paciente durante os primeiros dois dias na UTI, em comparação com modelos estritamente globais e outros.
O modelo primeiro comprime dados fisiológicos em registros eletrônicos de saúde de pacientes previamente admitidos na UTI, alguns que morreram durante sua estada. Ao fazer isso, aprende altos preditores de mortalidade, como baixa frequência cardíaca, pressão alta, e vários resultados de testes de laboratório - altos níveis de glicose e contagem de leucócitos, entre outros - nos primeiros dias e divide os pacientes em subpopulações com base em seu estado de saúde. Dado um novo paciente, o modelo pode olhar para os dados fisiológicos do paciente nas primeiras 24 horas e, usando o que é aprendido através da análise dessas subpopulações de pacientes, estimar melhor a probabilidade de que o novo paciente também morra nas 48 horas seguintes.
Além disso, os pesquisadores descobriram que avaliar (testar e validar) o modelo por subpopulações específicas também destaca as disparidades de desempenho dos modelos globais na previsão de mortalidade entre subpopulações de pacientes. Esta é uma informação importante para o desenvolvimento de modelos que podem trabalhar com mais precisão com pacientes específicos.
"UCIs têm largura de banda muito alta, com muitos pacientes, "diz o primeiro autor Harini Suresh, Pós-graduando no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). "É importante descobrir com antecedência quais pacientes estão realmente em risco e precisam de mais atenção imediata."
Os co-autores do artigo são Jen Gong, estudante de pós-graduação em CSAIL, e John Guttag, o Professor Dugald C. Jackson em Engenharia Elétrica.
Multitarefa e subpopulações de pacientes
Uma inovação fundamental do trabalho é que, durante o treinamento, o modelo separa os pacientes em subpopulações distintas, que captura aspectos do estado geral de riscos de saúde e mortalidade de um paciente. Ele faz isso calculando uma combinação de dados fisiológicos, dividido por hora. Os dados fisiológicos incluem, por exemplo, níveis de glicose, potássio, e nitrogênio, bem como a frequência cardíaca, pH do sangue, saturação de oxigênio, e frequência respiratória. Aumentos na pressão arterial e nos níveis de potássio - um sinal de insuficiência cardíaca - podem indicar problemas de saúde em relação a outras subpopulações.
Próximo, o modelo emprega um método multitarefa de aprendizagem para construir modelos preditivos. Quando os pacientes são divididos em subpopulações, modelos com ajustes diferentes são atribuídos a cada subpopulação. Cada modelo variante pode, então, fazer previsões com mais precisão para seu grupo personalizado de pacientes. Essa abordagem também permite que o modelo compartilhe dados em todas as subpopulações ao fazer previsões. Quando dado a um novo paciente, corresponderá aos dados fisiológicos do paciente para todas as subpopulações, encontre o melhor ajuste, e, então, estimar melhor o risco de mortalidade a partir daí.
"Estamos usando todos os dados dos pacientes e compartilhando informações entre as populações onde for relevante, "Suresh diz." Desta forma, somos capazes de ... não sofrer de problemas de escassez de dados, levando em consideração as diferenças entre as diferentes subpopulações de pacientes. "
"Os pacientes internados na UTI costumam diferir quanto ao motivo de estarem lá e como está seu estado de saúde. Por causa disso, eles serão tratados de maneira muito diferente, "Gong acrescenta. Auxílios à tomada de decisão clínica" devem levar em conta a heterogeneidade dessas populações de pacientes ... e garantir que haja dados suficientes para previsões precisas. "
Um insight importante desse método, Gong diz, veio do uso de uma abordagem multitarefa para também avaliar o desempenho de um modelo em subpopulações específicas. Modelos globais são frequentemente avaliados no desempenho geral, em populações inteiras de pacientes. Mas os experimentos dos pesquisadores mostraram que esses modelos realmente apresentam desempenho inferior em subpopulações. O modelo global testado no artigo previu a mortalidade com bastante precisão geral, mas caiu vários pontos percentuais na precisão quando testado em subpopulações individuais.
Essas disparidades de desempenho são difíceis de medir sem avaliar por subpopulações, Gong diz:"Queremos avaliar o desempenho do nosso modelo, não apenas em uma coorte inteira de pacientes, mas também quando o dividimos para cada coorte com características médicas diferentes. Isso pode ajudar os pesquisadores a melhorar o treinamento e a avaliação do modelo preditivo. "
Obtendo resultados
Os pesquisadores testaram seu modelo usando dados do MIMIC Critical Care Database, que contém dezenas de dados sobre populações heterogêneas de pacientes. De cerca de 32, 000 pacientes no conjunto de dados, mais de 2, 200 morreram no hospital. Eles usaram 80 por cento do conjunto de dados para treinar, e 20 por cento para testar o modelo.
Ao usar dados das primeiras 24 horas, o modelo agrupou os pacientes em subpopulações com importantes diferenças clínicas. Duas subpopulações, por exemplo, continha pacientes com pressão arterial elevada nas primeiras horas - mas um diminuiu ao longo do tempo, enquanto o outro manteve a elevação ao longo do dia. Essa subpopulação teve a maior taxa de mortalidade.
Usando essas subpopulações, o modelo previu a mortalidade dos pacientes nas 48 horas seguintes com alta especificidade e sensibilidade, e várias outras métricas. O modelo multitarefa superou significativamente o modelo global em vários pontos percentuais.
Próximo, os pesquisadores pretendem usar mais dados de registros eletrônicos de saúde, como os tratamentos que os pacientes estão recebendo. Eles também esperam, no futuro, treinar o modelo para extrair palavras-chave de notas clínicas digitalizadas e outras informações.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.