Ali Anwar é o primeiro autor de um artigo que anuncia o advento do BESPOKV, uma nova estrutura para sistemas HPC. Ele é um ex-aluno da Virginia Tech e atualmente trabalha na IBM Research. Crédito:Virginia Tech
Em grande escala, computação avançada de alto desempenho, frequentemente chamado de supercomputação, é essencial para resolver questões complexas e grandes.
Tudo, desde responder a perguntas metafísicas sobre as origens do universo até a descoberta de drogas que combatem o câncer até o suporte a serviços de streaming de alta velocidade, requer o processamento de grandes quantidades de dados.
Mas as plataformas de armazenamento essenciais para esses sistemas de computador avançados estão presas em uma estrutura rígida que exige que os usuários escolham entre customização de recursos ou alta disponibilidade.
Agora, Os pesquisadores da Virginia Tech encontraram uma maneira de dar aos sistemas de dados de computação de alto desempenho (HPC) a flexibilidade para prosperar com uma estrutura inédita chamada BespoKV, talvez ajudando a um dia atingir a meta do HPC de desempenho na exascale, ou 1 bilhão de bilhões de cálculos por segundo.
Os pesquisadores apresentarão suas descobertas na Association of Computing Machinery / IEEE Supercomputing Conference em Dallas, Texas, em 13 de novembro.
O principal ingrediente para o funcionamento da nova plataforma são os sistemas de valor chave (KV). Os sistemas KV armazenam e recuperam dados importantes de armazenamento baseado em memória muito rápido, em vez de discos mais lentos. Esses sistemas são cada vez mais usados em aplicativos de alto desempenho de hoje que usam sistemas distribuídos, que são compostos de muitos computadores para resolver um problema. A computação de alto desempenho depende da entrada de computadores, processo, e analisar grandes quantidades de dados em velocidades sem precedentes. Atualmente, os melhores sistemas operam em um quatrilhão de cálculos por segundo, ou um petaflop.
A pesquisa é relevante para indústrias que processam grandes quantidades de dados, seja a ocupação do espaço, gráficos visuais intensos de sites de streaming de filmes; milhões de transações financeiras em grandes empresas de cartão de crédito; ou conteúdo gerado pelo usuário em meios de comunicação sociais. Pense em grandes sites de mídia como o Facebook, onde o conteúdo muda e é continuamente acessado. Quando os usuários carregam conteúdo em suas páginas de perfil, essas informações residem em vários servidores.
O professor de ciência da computação Ali Butt é co-autor do artigo apresentado na Supercomputing 2018 em Dallas. Crédito:Virginia Tech
Mas se você tiver que acessar continuamente determinado conteúdo, Os sistemas KV podem ser muito mais eficientes como meio de armazenamento porque o conteúdo carrega do armazenamento mais rápido na memória nas proximidades, não o servidor de armazenamento distante. Isso permite que o sistema forneça um desempenho muito alto na conclusão de tarefas ou solicitações.
"Eu me interessei por sistemas de valor-chave porque esta plataforma de armazenamento fundamental e simples não foi explorada em sistemas de computação de alto desempenho, onde pode fornecer muitos benefícios, "disse Ali Anwar, primeiro autor do artigo que está sendo apresentado e recém-formado pela Virginia Tech que atualmente trabalha na IBM Research. "BespoKV é uma nova estrutura que pode permitir que os sistemas HPC forneçam muita flexibilidade e desempenho e não fiquem presos a um design de armazenamento rígido."
A principal inovação do BespoKV é que ele permite compor uma gama de lojas KV com características desejáveis. Ele funciona pegando um armazenamento KV de servidor único chamado datalet e permite armazenamentos KV distribuídos imediatos e prontos para uso. Agora, em vez de redesenhar um sistema do zero para realizar uma tarefa específica, um desenvolvedor pode colocar um datalet no BespoKV e descarregar o "encanamento confuso" de sistemas distribuídos para o framework. BespoKV desacopla o design da loja KV no plano de controle para gerenciamento distribuído e o plano de dados para armazenamento de dados local.
A estrutura também permite novos serviços HPC para cargas de trabalho que as empresas e instituições ainda não anteciparam.
Um dos principais efeitos limitantes das atuais lojas KV de última geração é que elas são projetadas com serviços distribuídos pré-existentes em mente e muitas vezes são especializadas para um ambiente específico. Outro fator limitante é o design monolítico inflexível, onde recursos distribuídos são profundamente embutidos em um sistema com armazenamentos de dados de back-end que fazem coisas como gerenciar inventário, pedidos, e abastecimento. O design rígido dessas lojas KV não é adaptável às demandas em constante mudança do usuário por uma infinidade de back-end, topologia, consistência, e uma série de outros serviços.
"Os desenvolvedores de grandes empresas podem realmente cravar seus dentes no projeto de sistemas de armazenamento HPC inovadores com BespoKV, "disse Ali Butt, professor de ciência da computação. "O desempenho do acesso a dados é uma limitação importante nos sistemas de armazenamento HPC e geralmente emprega uma combinação de soluções para fornecer flexibilidade junto com desempenho, o que é complicado. Criamos uma maneira de acelerar significativamente o comportamento do sistema para cumprir com o desempenho desejado, consistência, e níveis de confiabilidade. "
O BespoKV pode ser ágil porque permite um mapeamento arbitrário entre os serviços desejados e os componentes disponíveis, ao mesmo tempo que oferece suporte a serviços de gerenciamento distribuído para realizar e habilitar os armazenamentos KV distribuídos associados ao datalet.
"Agora que provamos que podemos realizar uma ação simples e eficiente de usar sistemas KV em sistemas HPC poderosos, os clientes não terão que escolher entre escalabilidade e flexibilidade, "disse Butt.