Dados multimodais. Para cada entrevista clínica, os pesquisadores usam:(a) vídeo de varreduras faciais em 3D, (b) gravação de áudio, visualizado como um espectrograma log-mel, e (c) transcrição de texto da fala do paciente. O modelo prevê a gravidade dos sintomas depressivos usando todas as três modalidades. Crédito:Haque et al.
Pesquisadores de Stanford exploraram recentemente o uso do aprendizado de máquina para medir a gravidade dos sintomas depressivos, analisando a linguagem falada das pessoas e as expressões faciais em 3D. Seu método multi-modelo, descrito em um artigo pré-publicado no arXiv, alcançou resultados muito promissores, com uma sensibilidade de 83,3 por cento e especificidade de 82,6 por cento.
Atualmente, mais de 300 milhões de pessoas em todo o mundo sofrem de transtornos depressivos em graus variados. Em casos extremos, a depressão pode levar ao suicídio, com uma média de aproximadamente 800, 000 pessoas que cometem suicídio todos os anos.
Os distúrbios de saúde mental são atualmente diagnosticados após um exame cuidadoso por uma ampla gama de profissionais de saúde, incluindo médicos de cuidados primários, psicólogos clínicos e psiquiatras. Apesar disso, detectar doenças mentais costuma ser muito mais desafiador do que diagnosticar doenças físicas.
Vários fatores, incluindo estigma social, custo e disponibilidade do tratamento, pode impedir que os indivíduos afetados procurem ajuda. Atualmente, os pesquisadores estimam que 60 por cento das pessoas afetadas por doenças mentais não recebem tratamento.
O desenvolvimento de métodos que podem detectar automaticamente os sintomas depressivos pode melhorar a precisão e a disponibilidade de ferramentas de diagnóstico, levando a intervenções mais rápidas e eficientes. Uma equipe de pesquisadores de Stanford investigou recentemente o uso de aprendizado de máquina para medir a gravidade dos sintomas depressivos.
"Nesse trabalho, apresentamos um método de aprendizado de máquina para medir a gravidade dos sintomas depressivos, "os pesquisadores escreveram em seu artigo." Nosso método multimodal usa expressões faciais em 3D e linguagem falada, comumente disponíveis em telefones celulares modernos. "
Aprendendo a incorporação de uma frase multimodal. Geral, o modelo é uma CNN causal. A entrada para o modelo é:áudio, Varreduras faciais em 3D, e texto. A incorporação de sentenças multimodais é fornecida a um classificador de depressão e modelo de regressão PHQ (não mostrado acima). Crédito:Haque et al.
Indivíduos deprimidos frequentemente apresentam uma série de sintomas verbais e não verbais, incluindo tom monótono, taxa de articulação reduzida, volumes de fala mais baixos, menos gestos, e mais olhares para baixo. Um dos testes mais comuns para avaliar a gravidade dos sintomas de depressão é o questionário de saúde do paciente (PHQ).
O método idealizado pelos pesquisadores analisa faixas de áudio da voz dos pacientes, Vídeo 3-D de suas expressões faciais, e transcrições de texto de suas entrevistas clínicas. Com base nesses dados, o modelo produz uma pontuação de PHQ ou rótulo de classificação indicando transtorno depressivo maior.
Em uma avaliação inicial, o modelo obteve um erro médio de 3,67 pontos (15,3 por cento relativo), na escala PHQ, detectar transtorno depressivo maior com sensibilidade de 83,3 por cento e especificidade de 82,6 por cento. Os pesquisadores optaram por coletar os dados usados em seu estudo por meio de entrevistas homem-computador, em vez de humanos para humano.
"Comparado a um entrevistador humano, a pesquisa mostrou que os pacientes relatam menos medo de revelação e exibem mais intensidade emocional ao conversar com um avatar, "escreveram os pesquisadores." Além disso, as pessoas experimentam benefícios psicológicos ao revelar experiências emocionais a chatbots. "
No futuro, este novo método de aprendizado de máquina pode ser implantado em smartphones em todo o mundo, ajudando na missão de tornar os cuidados de saúde mental mais baratos e acessíveis. De acordo com os pesquisadores, seu modelo é projetado para aumentar e complementar os métodos clínicos existentes, em vez de emitir diagnósticos formais.
"Apresentamos um método de aprendizado de máquina multimodal que combina técnicas de reconhecimento de fala, visão de computador, e processamento de linguagem natural, "Os pesquisadores escreveram." Esperamos que este trabalho inspire outros a construir ferramentas baseadas em IA para compreender os transtornos mentais além da depressão. "
© 2018 Science X Network