Análise de big data mais rápida com tecnologias de mineração de padrões de classe mundial
p Fig 1. Múltiplos fluxos de GPU assíncronos do GMiner. Crédito:Instituto Daegu Gyeongbuk de Ciência e Tecnologia (DGIST)
p Uma equipe de pesquisa do Instituto de Ciência e Tecnologia Daegu Gyeongbuk (DGIST) da Coréia conseguiu analisar big data até 1, 000 vezes mais rápido do que a tecnologia existente, usando a tecnologia 'GMiner' baseada em GPU. Espera-se que a descoberta da análise de padrão de big data seja utilizada em vários setores, incluindo os setores de finanças e TI. p Uma equipe internacional de pesquisadores, liderado pelo professor Min-Soo Kim, do Departamento de Engenharia da Informação e Comunicação, desenvolveu a tecnologia 'GMiner' que pode analisar padrões de big data em alta velocidade. A tecnologia GMiner apresenta desempenho de até 1, 000 vezes mais rápido do que a melhor tecnologia de mineração de padrões atual do mundo.
p A tecnologia de mineração de padrões identifica todos os padrões importantes que aparecem repetidamente nos big data de vários campos, como a compra de mercadorias em megamercados, transações bancárias, pacotes de rede, e redes sociais. Essa tecnologia é amplamente usada em vários setores para fins como determinar a localização de produtos nas prateleiras dos mega-mercados ou recomendar cartões de crédito que correspondam aos padrões de uso de consumidores de diferentes idades.
p A crescente importância da mineração de padrões levou ao desenvolvimento de milhares de tecnologias de mineração de padrões nos últimos 20 anos; Contudo, devido ao comprimento crescente dos padrões de big data, que aumentou o número de padrões analíticos exponencialmente, as tecnologias de mineração existentes foram prejudicadas na análise de dados de mais de dez gigabytes (GB) porque não conseguiram concluir a análise devido à memória insuficiente do computador ou demoraram muito.
p As tecnologias tradicionais de mineração de padrões primeiro encontraram padrões de comprimento médio e os armazenaram na memória. Ao buscar um padrão mais longo do que o comprimento médio, eles usaram um método para encontrar padrões finais em comparação com um padrão de comprimento médio que havia sido salvo anteriormente.
p Fig 2. Fluxo de dados do GMiner usando várias GPUs. Crédito:Instituto Daegu Gyeongbuk de Ciência e Tecnologia (DGIST)
p Contudo, A tecnologia GMiner desenvolvida pela equipe de pesquisa conseguiu resolver fundamentalmente o problema das tecnologias existentes, propondo técnicas anti-intuitivas que combinam os padrões de comprimento médio calculados temporariamente usando os milhares de núcleos em unidades de processamento gráfico (GPU) para calcular o comprimento final de padrões.
p A tecnologia GMiner resolveu completamente o problema crônico de memória insuficiente sofrido pelas tecnologias convencionais ao não armazenar um número exponencial de padrões de comprimento médio na memória. Além disso, ele resolveu o problema de velocidade lenta transmitindo dados da memória principal para a GPU, ao mesmo tempo em que buscava padrões usando o alto desempenho computacional da GPU.
p A tecnologia GMiner mostrou desempenho de análise que é de no mínimo 10 vezes a no máximo 1, 000 vezes mais rápido do que as tecnologias convencionais distribuídas e paralelas que analisam dados usando até dezenas de computadores domésticos gerais que têm uma única GPU por computador; portanto, ele pode analisar big data em uma escala maior do que as tecnologias existentes. Ele também mostrou excelente desempenho de expansão que melhora o desempenho em proporção ao número de GPUs.
p Professor Kim disse, "Asseguramos tecnologias fundamentais que podem analisar padrões de big data em alta velocidade sem problemas de memória para big data acumulados em uma variedade de setores. Resolvendo problemas em que as tecnologias de mineração de padrões não foram aplicadas adequadamente a big data devido à falta de memória e velocidade lenta, esta nova tecnologia pode ser utilizada para ajudar as empresas a tomar decisões eficientes, analisando os padrões de big data em vários setores, incluindo o financeiro, retalho, ISTO, e setores bio-relacionados. "
p O resultado desta pesquisa foi publicado na edição de 9 de maio da Information Sciences, o periódico internacional de maior autoridade no campo da ciência da informação.