Waheeda Saib. Crédito:IBM
Registros de câncer mantêm conjuntos de dados vitais, mantido fortemente criptografado, contendo informações demográficas, histórico médico, diagnósticos e terapia. Oncologistas e funcionários da saúde acessam os dados para entender os casos de câncer diagnosticados e as taxas de incidência em todo o país. O objetivo final é usar esses dados para informar o planejamento de saúde pública e programas de intervenção. Embora as atualizações em tempo real não sejam práticas, atrasos de vários anos tornam um desafio para as autoridades compreender o impacto do câncer no país e alocar os recursos de acordo.
Os relatórios de patologia não estruturados contêm dados específicos do tumor e são a principal fonte de informações coletadas pelos registros de câncer. Especialistas humanos rotulam os relatórios de patologia usando códigos da Classificação Internacional de Doenças para Oncologia (CID-O), abrangendo 42 tipos diferentes de câncer. A combinação de processos manuais e a magnitude dos relatórios recebidos anualmente leva a uma defasagem de quatro anos para o país. Em comparação, há um atraso de quase dois anos nos Estados Unidos.
Em 2016, quando inauguramos nosso novo laboratório de pesquisa IBM em Joanesburgo, assumimos este desafio e estamos relatando nossos primeiros resultados promissores no Health Day na KDD Data Science Conference em Londres este mês.
Nosso objetivo desde o início era aplicar o aprendizado profundo para automatizar a rotulagem de relatórios de patologia de câncer para acelerar o processo de relatórios. Trabalhando com o Registro Nacional de Câncer na África do Sul, usamos 2, 201 desidentificado, relatórios de patologia em texto livre e estou orgulhoso de informar que nosso artigo demonstra 74 por cento de precisão - uma melhoria em relação aos modelos de referência atuais. Acreditamos que podemos chegar a uma precisão de 95 por cento com mais dados.
Empregamos a classificação hierárquica com redes neurais convolucionais, embora esta não fosse a nossa primeira escolha. Inicialmente, começamos a explorar modelos de redes neurais convolucionais binária e multiclasse, mas os resultados não foram promissores e quase desisti de frustração. Eventualmente, com o conselho e apoio dos meus colegas, nós limpamos o texto, refinou o processo de engenharia de recursos e o melhorou para 60 por cento. Este resultado foi uma melhoria, mas sabíamos que precisávamos de 90-95% para torná-lo confiável o suficiente para o mundo real.
Depois de mais pesquisa e exploração, pensamos em reduzir a complexidade do problema multiclasse, o que nos levou a criar um método de classificação de aprendizagem profunda hierárquica de última geração com base na estrutura hierárquica do sistema de codificação ICD-O de oncologia. Assim, usamos uma abordagem combinada para identificar a hierarquia de classes e validá-la usando conhecimento especializado para obter melhor desempenho do que um modelo multiclasse plano para classificação de relatórios de patologia em texto livre.
É claro que nosso trabalho ainda não terminou; precisamos alcançar uma precisão acima de 95 por cento, e achamos que isso é possível com mais dados, que será fornecido por nossos parceiros no Registro Nacional de Câncer. Assim que conseguirmos isso, achamos que a África do Sul pode ser a melhor do mundo em termos de relatórios de câncer, o que é significativo principalmente porque foi relatado que meu país terá um aumento de 78% no câncer até 2030.
Esta história foi republicada por cortesia da IBM Research. Leia a história original aqui.