Elke Rundensteiner, direito, professor de ciência da computação no Worcester Polytechnic Institute (WPI), e a estudante de doutorado Allison Rozet, ficar ao lado de uma bancada de teste de veículo autônomo usado em pesquisas no WPI. As ferramentas de análise que a Rundensteiner e a Rozet estão desenvolvendo podem tornar os carros sem motorista mais seguros ao analisar o fluxo de dados dos veículos em tempo real. Crédito:Worcester Polytechnic Institute
Uma nova ferramenta analítica de big data que está sendo desenvolvida por cientistas da computação no Worcester Polytechnic Institute (WPI) ajudará as empresas a fazerem sentido, em tempo real, do dilúvio de dados que flui para eles como água de uma mangueira de incêndio.
Com três anos, $ 499, 753 doação da National Science Foundation, Elke Rundensteiner, professor de ciência da computação e diretor do Programa de Ciência de Dados da WPI, está liderando uma equipe de estudantes de ciência da computação e ciência de dados que está construindo uma ferramenta de análise de tendências de eventos de última geração conhecida como SETA (Scalable Event Trend Analytics). Este software de código aberto será usado não apenas para encontrar padrões em tempo real, fluxos de dados de alto volume ("dados em movimento"), mas para analisar esses padrões e entendê-los rapidamente para uma tomada de decisão just-in-time.
SETA pode permitir grandes empresas, sites de mídia social, centros de detecção de fraude, redes de veículos autônomos, governos, e outros usuários para aproveitar o fluxo contínuo de big data conforme ele é transmitido e transformá-lo em insights acionáveis que podem permitir que eles sejam cada vez mais ágeis e competitivos. "Em um mundo onde o big data está continuamente acelerando em volume e velocidade, a análise de dados de streaming em tempo real tornou-se cada vez mais crítica, "disse Rundensteiner, um especialista reconhecido internacionalmente em processamento escalonável de fluxo de dados.
O processamento de eventos é uma maneira de rastrear e analisar fluxos de entrada de informações, como compras online, o aumento e a queda do preço de uma ação, o tempo que os usuários permanecem em um site, ou se os profissionais de saúde lavam as mãos antes de entrar nos quartos dos pacientes. É tudo uma questão de sinalizar eventos importantes nos dados de entrada, para que uma organização possa responder a eles em tempo real. SETA será capaz de lidar com análises e consultas complexas, ao mesmo tempo em que fornece aos usuários insights resumidos de maneira mais barata e rápida do que é possível atualmente.
A maioria das ferramentas de análise de dados existentes não são projetadas para trabalhar com dados de streaming, Rundensteiner anotou. Em vez de, as informações devem ser armazenadas em um banco de dados estático antes de serem analisadas, introduzindo um atraso que pode impedir a detecção rápida, por exemplo, do início de um surto de doença infecciosa em um hospital. As ferramentas da Rundensteiner operam nos dados à medida que são gerados, permitindo que até mesmo padrões complexos sejam identificados em tempo real, portanto, decisões críticas podem ser tomadas rapidamente.
"Os fluxos de dados estão aumentando em uma taxa dramática, oprimindo as empresas que não conseguem entender seus dados em tempo real, "Rundensteiner disse." Ao encontrar maneiras de lidar com essas transmissões ao vivo, estamos desbravando novos caminhos em análise de dados. Você poderia colocar todo esse big data em um banco de dados estático e examiná-lo mais tarde, mas se você quiser detectar uma compra fraudulenta com cartão de crédito enquanto ela está acontecendo ou alertar uma rede de carros autônomos sobre um acidente à frente, você precisa analisar essas informações à medida que elas são transmitidas a uma taxa de dezenas de milhares de dados por microssegundo. "
Com o novo prêmio, Rundensteiner se baseará em sua pesquisa anterior patrocinada pela NSF em análise de fluxo de eventos, que se concentrava em encontrar padrões em dados de streaming. Esse trabalho (em colaboração com ex-alunos de Ph.D., Olga Poppe, um cientista pesquisador no Microsoft Gray Systems Lab, Chuan Lei, membro da equipe de pesquisa do IBM Almaden Research Center, e Di Wang, um cientista pesquisador do Facebook), produziu ferramentas analíticas que permitiram aos usuários consultar um fluxo de dados para sequências de eventos relativamente simples. Mas se o software encontrou muitas instâncias das mesmas sequências ou de sequências semelhantes e exibiu todas elas, o usuário muitas vezes ficava confuso e perdia os padrões significativos ou as tendências gerais entre os padrões.
Em vez de exibir as sequências detectadas uma por uma, a nova ferramenta que Rundensteiner está desenvolvendo agregará esses padrões e mostrará ao usuário quantas vezes cada um ocorre. "Ao mostrar um pico de atividade anormal, o sistema permite que você veja rapidamente o que está acontecendo, "disse ela." Às vezes, estou mais interessada no desvio da contagem típica de padrões, porque então eu sei instantaneamente se algo anormal está acontecendo. Se um carro autônomo está desviando, isso pode não significar nada. Mas se mil carros no mesmo trecho da estrada apresentarem comportamento divergente, então algo real está acontecendo. Você pode então se aprofundar nesse subconjunto específico de dados para explorar esse comportamento inesperado. "
O desenvolvimento de ferramentas para se aprofundar nesses agregados de padrões é outro elemento da pesquisa sobre SETA. Rundensteiner deseja capacitar os usuários a procurar padrões muito mais sofisticados. Por exemplo, enquanto sua ferramenta anterior poderia ser usada para procurar uma sequência de comprimento fixo (digamos, instâncias de um veículo ativando os freios, desviando, e então parando), ela quer tornar isso possivel, com uma única consulta de fluxo simples, para detectar sequências envolvendo um número ilimitado de instâncias (um carro desviando um número desconhecido de vezes, travando repetidamente, e então parando, por exemplo). Embora o número de possíveis correspondências com essa consulta possa crescer exponencialmente devido à complexidade da linguagem de consulta, os resultados prometem ser mais úteis, ela disse.
Para criar novas ferramentas de análise de tendências de eventos, Rundensteiner deve primeiro projetar uma nova linguagem de consulta, que é usado para localizar e recuperar padrões nos dados. Ao permitir que os usuários pesquisem padrões mais complicados, o novo idioma tornará a ferramenta significativamente mais fácil de usar. Ela também está construindo um novo "mecanismo de consulta" para processar essas consultas sofisticadas e encontrar os padrões ou eventos solicitados. Um motor distribuído, ele será executado em vários servidores em uma rede em nuvem, aumentando dramaticamente sua velocidade.
"Construir esse motor é uma parte fundamental do projeto, "ela disse." Tradicionalmente, um mecanismo pode gerar todas as respostas para uma consulta, armazene-os, e então comece a contá-los. Isso é muito demorado e caro. A tecnologia atual pode levar horas, ou ainda mais, para processar uma consulta complicada. O nosso demorará alguns segundos. Não adianta fazer essas grandes perguntas se você tem que esperar dias pelas respostas. "
O novo software de análise de tendências de eventos, que ela está desenvolvendo com Allison Rozet, um Ph.D. candidato em ciência de dados, será testado usando conjuntos de dados do mundo real e aplicativos fornecidos por um centro de saúde e uma empresa de processamento de transações financeiras.
“No campo da saúde, isso pode salvar vidas, "Rundensteiner disse." Podemos detectar padrões que mostram como a infecção está se espalhando. Poderíamos ver quando, por exemplo, a equipe não está vestindo aventais cirúrgicos ou lavando as mãos. Podemos, portanto, ver os problemas à medida que se desdobram, para que possamos ver de onde os problemas estão se originando. Estamos criando ferramentas melhores para obter as respostas de que precisamos com uma crescente enxurrada de informações que chegam. "