Crédito CC0:domínio público
Um novo estudo do MIT encontra "gráficos de conhecimento em saúde, "que mostram relações entre sintomas e doenças e se destinam a ajudar no diagnóstico clínico, pode ser insuficiente para certas condições e populações de pacientes. Os resultados também sugerem formas de impulsionar seu desempenho.
Os gráficos de conhecimento em saúde geralmente são compilados manualmente por médicos especialistas, mas isso pode ser um processo trabalhoso. Recentemente, pesquisadores têm experimentado gerar automaticamente esses gráficos de conhecimento a partir de dados de pacientes. A equipe do MIT tem estudado como esses gráficos se comportam em diferentes doenças e populações de pacientes.
Em um artigo apresentado no Pacific Symposium on Biocomputing 2020, os pesquisadores avaliaram gráficos de conhecimento em saúde gerados automaticamente com base em conjuntos de dados reais compreendendo mais de 270, 000 pacientes com quase 200 doenças e mais de 770 sintomas.
A equipe analisou como vários modelos usaram dados de registros eletrônicos de saúde (EHR), contendo históricos médicos e de tratamento de pacientes, para "aprender" automaticamente os padrões de correlações doença-sintoma. Eles descobriram que os modelos tiveram um desempenho particularmente ruim para doenças que têm altas porcentagens de pacientes muito idosos ou jovens, ou altas porcentagens de pacientes do sexo masculino ou feminino - mas que escolher os dados certos para o modelo certo, e fazer outras modificações, pode melhorar o desempenho.
A ideia é orientar os pesquisadores sobre a relação entre o tamanho do conjunto de dados, Especificação modelo, e desempenho ao usar registros eletrônicos de saúde para construir gráficos de conhecimento de saúde. Isso poderia levar a melhores ferramentas para auxiliar médicos e pacientes na tomada de decisões médicas ou na busca de novas relações entre doenças e sintomas.
"Nos últimos 10 anos, O uso de EHR disparou em hospitais, portanto, há uma enorme quantidade de dados que esperamos explorar para aprender esses gráficos de relações doença-sintoma, "diz a primeira autora Irene Y. Chen, é pós-graduando no Departamento de Engenharia Elétrica e Ciência da Computação (EECS). "É essencial que examinemos de perto esses gráficos, para que possam ser usados como os primeiros passos de uma ferramenta de diagnóstico. "
Monica Agrawal juntou-se a Chen no papel, um estudante de pós-graduação no Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL); Steven Horng do Beth Israel Deaconess Medical Center (BIDMC); e o professor David Sontag do EECS, que é membro do CSAIL e do Institute for Medical Engineering and Science, e chefe do Grupo de Aprendizagem de Máquina Clínica.
Pacientes e doenças
Nos gráficos de conhecimento em saúde, existem centenas de nós, cada um representando uma doença e sintoma diferente. Bordas (linhas) conectam nós de doenças, como "diabetes, "com nódulos de sintoma correlacionados, como "sede excessiva". O Google lançou sua própria versão em 2015, que foi curado manualmente por vários médicos ao longo de centenas de horas e é considerado o padrão ouro. Quando você busca uma doença no Google agora, o sistema exibe os sintomas associados.
Em um artigo da Nature Scientific Reports de 2017, Sontag, Horng, e outros pesquisadores aproveitaram dados do mesmo 270, 00 pacientes em seu estudo atual - que veio do departamento de emergência do BIDMC entre 2008 e 2013 - para construir gráficos de conhecimento em saúde. Eles usaram três estruturas de modelo para gerar os gráficos, chamada de regressão logística, Baías ingénuas, e barulhento OU. Usando dados fornecidos pelo Google, os pesquisadores compararam seu gráfico de conhecimento de saúde gerado automaticamente com o Google Health Knowledge Graph (GHKG). O gráfico dos pesquisadores teve um desempenho muito bom.
Em seu novo trabalho, os pesquisadores fizeram uma análise de erro rigorosa para determinar em quais pacientes e doenças específicas os modelos tiveram um desempenho ruim. Adicionalmente, eles experimentaram aumentar os modelos com mais dados, além da sala de emergência.
Em um teste, eles dividiram os dados em subpopulações de doenças e sintomas. Para cada modelo, eles olharam para as linhas de conexão entre as doenças e todos os sintomas possíveis, e comparado com o GHKG. No papel, eles classificam as descobertas em 50 doenças com desempenho inferior e 50 doenças com melhor desempenho. Exemplos de baixo desempenho são a síndrome dos ovários policísticos (que afeta as mulheres), asma alérgica (muito rara), e câncer de próstata (que afeta predominantemente homens mais velhos). Pessoas de alto desempenho são as doenças e condições mais comuns, como arritmia cardíaca e fascite plantar, que é o inchaço do tecido ao longo dos pés.
Eles descobriram que o modelo OR ruidoso era o mais robusto contra erros em geral para quase todas as doenças e pacientes. Mas a precisão diminuiu entre todos os modelos para pacientes que têm muitas doenças e sintomas concomitantes, bem como pacientes muito jovens ou com mais de 85 anos. O desempenho também foi prejudicado para populações de pacientes com porcentagens muito altas ou baixas de qualquer sexo.
Essencialmente, os pesquisadores levantam a hipótese, o mau desempenho é causado por pacientes e doenças que apresentam desempenho preditivo atípico, bem como potenciais confundidores não medidos. Pacientes idosos, por exemplo, tendem a entrar em hospitais com mais doenças e sintomas relacionados do que pacientes mais jovens. Isso significa que é difícil para os modelos correlacionar doenças específicas com sintomas específicos, Chen diz. "De forma similar, " Ela adiciona, "os pacientes jovens não têm muitas doenças ou tantos sintomas, e se eles têm uma doença rara ou sintoma, não se apresenta de forma normal que os modelos entendam. "
Dividindo dados
Os pesquisadores também coletaram muito mais dados de pacientes e criaram três conjuntos de dados distintos de granularidade diferente para ver se isso poderia melhorar o desempenho. Para o 270, 000 visitas usadas na análise original, os pesquisadores extraíram a história EHR completa do 140, 804 pacientes únicos, rastreando uma década, com cerca de 7,4 milhões de anotações no total de várias fontes, como notas médicas.
As escolhas no processo de criação do conjunto de dados também impactaram o desempenho do modelo. Um dos conjuntos de dados agrega cada um dos 140, 400 históricos de pacientes como um ponto de dados cada. Outro conjunto de dados trata cada uma das 7,4 milhões de anotações como um ponto de dados separado. Um último cria "episódios" para cada paciente, definido como uma série contínua de visitas sem intervalo de mais de 30 dias, rendendo um total de cerca de 1,4 milhões de episódios.
Intuitivamente, um conjunto de dados onde o histórico completo do paciente é agregado em um ponto de dados deve levar a uma maior precisão, uma vez que todo o histórico do paciente é considerado. Contra-intuitivamente, Contudo, também fez com que o modelo ingênuo de Bayes tivesse um desempenho pior para algumas doenças. "Você assume as informações mais intrapacientes, o melhor, com modelos de aprendizado de máquina. Mas esses modelos dependem da granularidade dos dados com os quais você os alimenta, "Chen diz." O tipo de modelo que você usa pode ficar sobrecarregado. "
Como esperado, alimentar as informações demográficas do modelo também pode ser eficaz. Por exemplo, modelos podem usar essas informações para excluir todos os pacientes do sexo masculino para, dizer, predizer câncer cervical. E certas doenças muito mais comuns em pacientes idosos podem ser eliminadas em pacientes mais jovens.
Mas, em outra surpresa, as informações demográficas não aumentaram o desempenho do modelo de maior sucesso, portanto, coletar esses dados pode ser desnecessário. Isso é importante, Chen diz, porque a compilação de dados e modelos de treinamento nos dados pode ser cara e demorada. Ainda, dependendo do modelo, o uso de dezenas de dados pode não melhorar o desempenho.
Próximo, os pesquisadores esperam usar suas descobertas para construir um modelo robusto para implantar em ambientes clínicos. Atualmente, o gráfico de conhecimento de saúde aprende as relações entre doenças e sintomas, mas não fornece uma previsão direta da doença a partir dos sintomas. "Esperamos que qualquer modelo preditivo e qualquer gráfico de conhecimento médico seja submetido a um teste de estresse para que os médicos e pesquisadores de aprendizado de máquina possam dizer com segurança:"Confiamos nisso como uma ferramenta de diagnóstico útil, '"Chen diz.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.