(L-R) Fuad Jamour, Panos Kalnis e Yanzhao Chen estão construindo sistemas e algoritmos para processar e analisar conjuntos de dados muito grandes. Crédito:2019 KAUST
Para resolver um dos principais obstáculos na ciência de big data, Os pesquisadores da KAUST criaram uma estrutura para pesquisar conjuntos de dados muito grandes que podem ser executados facilmente em diferentes arquiteturas de computação. Sua conquista permite que os pesquisadores se concentrem no avanço do mecanismo de pesquisa, ou mecanismo de consulta, em si, em vez de codificar meticulosamente para plataformas de computação específicas.
Big data é um dos aspectos mais promissores, mas desafiadores, do mundo atual com muitas informações. Enquanto o enorme e crescente conjunto de informações, como dados coletados online ou informações genéticas, poderia conter ideias poderosas para a ciência e a humanidade, processar e interrogar todos esses dados requerem técnicas altamente sofisticadas.
Muitas abordagens diferentes para consultar big data foram exploradas. Mas um dos mais poderosos e computacionalmente efetivos é baseado na análise de dados com uma estrutura triplestore sujeito-predicado-objeto do formulário (por exemplo, maçã, é um, fruta). Esta estrutura se presta a ser tratada como um gráfico com arestas e vértices, e esta característica tem sido usada para codificar motores de consulta para arquiteturas de computação específicas para máxima eficiência. Contudo, tais abordagens específicas de arquitetura não podem ser prontamente transferidas para plataformas diferentes, limitando as oportunidades de inovação e avanço em análises.
"Os sistemas de computação modernos oferecem diversas plataformas e aceleradores, e programá-los pode ser intimidante e demorado, "dizem Fuad Jamour e Yanzhao Chen, Ph.D. candidatos no grupo de Panos Kalnis no Extreme Computing Research Center da KAUST. "Nosso grupo de pesquisa se concentra na construção de sistemas e algoritmos para processamento e análise de conjuntos de dados muito grandes. Esta pesquisa aborda o desejo de escrever um programa uma vez e, em seguida, usá-lo em diferentes plataformas."
Em vez das abordagens de travessia de gráfico ou indexação relacional exaustiva usadas anteriormente, o grupo consultou dados de armazenamento triplo usando uma abordagem matemática aplicada chamada álgebra de matriz esparsa.
"Nosso artigo descreve o primeiro mecanismo de pesquisa de consulta a gráficos com álgebra matricial em seu núcleo para abordar a questão da portabilidade, "diz Jamour." A maioria dos mecanismos de consulta de gráfico existentes são projetados para computadores únicos ou pequenos sistemas de memória distribuída. E portando os mecanismos existentes para grandes sistemas de memória distribuída, como supercomputadores, envolve um esforço significativo de engenharia. Nosso esquema de álgebra de matriz esparsa pode ser usado para construir escaláveis, motores de consulta gráfica portáteis e eficientes. "
Os experimentos da equipe em conjuntos de dados reais e sintéticos em grande escala alcançaram desempenho comparável com, ou melhor do que, abordagens especializadas existentes para consultas complexas. Seu esquema também tem a capacidade de escalar até infraestruturas de computação muito grandes, lidando com conjuntos de dados de até 512 bilhões de triplos.
"Essas ideias podem facilitar a construção de componentes analíticos em bancos de dados gráficos com desempenho de ponta, que está em alta demanda, "diz Chen.