“Estamos olhando para a crise no momento em que ela acontece, ”Disse Prasenjit Mitra. “A melhor fonte para obter informações oportunas durante um desastre são as redes sociais, particularmente microblogs como o Twitter. Crédito:Thinkstock
Os dados do Twitter podem fornecer às equipes de ajuda humanitária informações em tempo real para fornecer ajuda e salvar vidas, graças a um novo algoritmo desenvolvido por uma equipe internacional de pesquisadores.
Uma equipe de pesquisadores da Penn State, o Instituto Indiano de Tecnologia Kharagpur, e o Qatar Computing Research Institute criou um algoritmo que analisa os dados do Twitter para identificar eventos menores relacionados a desastres, conhecidos como subeventos, e gerar alta precisão, resumos em tempo real que podem ser usados para orientar as atividades de resposta.
O grupo apresentou seu artigo - "Identificando Subeventos e Resumindo Informações de Microblogs durante Desastres" - hoje (10 de julho) no 41º Grupo de Interesse Especial da Associação Internacional de Máquinas de Computação na Conferência de Recuperação de Informação sobre Pesquisa e Desenvolvimento em Recuperação de Informação em Ann Arbor , Michigan.
"Estamos olhando para a crise no momento em que ela acontece, "disse Prasenjit Mitra, Reitor associado de pesquisa na Faculdade de Ciências e Tecnologia da Informação da Penn State e colaborador do estudo.
"A melhor fonte para obter informações oportunas durante um desastre são as redes sociais, particularmente microblogs como o Twitter, "disse Mitra." Os jornais ainda não foram impressos e os blogs ainda não foram publicados, portanto, o Twitter permite uma visão quase em tempo real de um evento daqueles afetados por ele. "
Analisar esses dados e usá-los para gerar relatórios relacionados a um subtópico de um desastre - como danos à infraestrutura ou necessidades de abrigos - pode ajudar as organizações humanitárias a responder melhor às diversas necessidades dos indivíduos em uma área afetada.
Dado o volume de dados produzidos, gerenciar manualmente esse processo logo após uma crise nem sempre é prático. Freqüentemente, também há necessidade de atualizações exclusivas relacionadas a tópicos específicos dentro e entre as organizações.
"Vários trabalhos sobre sumarização específica de desastres nos últimos tempos propuseram algoritmos que fornecem principalmente um resumo geral de todo o evento, "escreveram os pesquisadores em seu artigo." No entanto, diferentes partes interessadas, como equipes de resgate, agências governamentais, especialistas de campo, [e] pessoas comuns têm diferentes necessidades de informação. "
No estudo, o grupo coletou mais de 2,5 milhões de tweets postados durante três grandes catástrofes globais — o tufão Hagupit que atingiu as Filipinas em 2014, a enchente de 2014 no Paquistão, e o terremoto de 2015 no Nepal. Então, voluntários do Escritório das Nações Unidas para a Coordenação de Assuntos Humanitários treinaram um sistema de aprendizado de máquina categorizando manualmente os tweets em diferentes subeventos, como comida, medicina e infraestrutura.
Uma vez que o sistema pode identificar tweets com um alto nível de precisão, os pesquisadores permitem que o sistema categorize grandes quantidades de dados com rapidez e precisão, sem intervenção humana. Conforme os eventos se desenvolvem, Contudo, aparecem novas categorias de conteúdo que exigem o reinício do processo.
"Em um determinado ponto, há uma variação no tópico. Os tópicos mudam de resposta imediata, como as pessoas estão presas, a precipitação contínua, como doenças ou problemas de transporte, "explicou Mitra." Quando o assunto muda, observamos a precisão da máquina. Se cair abaixo de um certo limite, a força-tarefa categoriza manualmente mais tweets para educar ainda mais a máquina. "
Seu algoritmo de "detecção de subeventos baseada em analisador de dependência", conhecido como DEPSUB, identificou pares substantivo-verbo que representam subtópicos - como "colapso da ponte" ou "pessoa presa" - e os classificou com base na frequência com que aparecem nos tweets. Então, eles criaram um algoritmo para escrever resumos sobre o evento amplo e os subeventos identificados. Finalmente, avaliadores humanos classificaram a utilidade e precisão dos subeventos identificados pelo DEPSUB e resumos gerados automaticamente em comparação com aqueles criados por outros métodos existentes.
Os avaliadores consideraram o DEPSUB e seu algoritmo de resumo mais relevantes, útil e compreensível em comparação com outros algoritmos líderes. No futuro, os pesquisadores esperam aplicar seu trabalho a situações especializadas, como resumir informações sobre pessoas desaparecidas, e extrair informações específicas de tweets que poderiam criar uma descrição e visualização mais completas de um evento.
“Com um sistema bem treinado, a intervenção humana não é necessária para categorizar ou resumir os dados do Twitter, "disse Mitra." Este sistema automatizado é o primeiro passo para dar aos trabalhadores humanitários um andaime que eles podem refinar para construir um melhor resumo geral de um evento, bem como ter uma visão mais restrita de alguma parte desse evento maior. "