• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O conjunto de dados do centro de supercomputação visa acelerar a pesquisa de IA para otimizar sistemas de computação de alto desempenho

    Crédito:Pixabay/CC0 Public Domain

    Quando o MIT Lincoln Laboratory Supercomputing Center (LLSC) apresentou seu supercomputador TX-GAIA em 2019, ele forneceu à comunidade do MIT um novo e poderoso recurso para aplicar inteligência artificial em suas pesquisas. Qualquer pessoa no MIT pode enviar um trabalho ao sistema, que realiza trilhões de operações por segundo para treinar modelos para diversas aplicações, como detectar tumores em imagens médicas, descobrir novos medicamentos ou modelar efeitos climáticos. Mas com esse grande poder vem a grande responsabilidade de gerenciá-lo e operá-lo de maneira sustentável - e a equipe está procurando maneiras de melhorar.
    "Temos essas poderosas ferramentas computacionais que permitem aos pesquisadores construir modelos complexos para resolver problemas, mas elas podem ser usadas essencialmente como caixas pretas. O que se perde lá é se estamos realmente usando o hardware da maneira mais eficaz possível", diz Siddharth Samsi. , um cientista de pesquisa no LLSC.

    Para obter informações sobre esse desafio, o LLSC vem coletando dados detalhados sobre o uso do TX-GAIA no ano passado. Mais de um milhão de trabalhos de usuários depois, a equipe lançou o conjunto de dados de código aberto para a comunidade de computação.

    Seu objetivo é capacitar cientistas da computação e operadores de data center a entender melhor os caminhos para a otimização do data center — uma tarefa importante à medida que as necessidades de processamento continuam a crescer. Eles também veem potencial para alavancar a IA no próprio data center, usando os dados para desenvolver modelos para prever pontos de falha, otimizar o agendamento de tarefas e melhorar a eficiência energética. Embora os provedores de nuvem estejam trabalhando ativamente na otimização de seus data centers, eles geralmente não disponibilizam seus dados ou modelos para a comunidade mais ampla de computação de alto desempenho (HPC). A liberação deste conjunto de dados e código associado procura preencher este espaço.

    "Os data centers estão mudando. Temos uma explosão de plataformas de hardware, os tipos de cargas de trabalho estão evoluindo e os tipos de pessoas que usam os data centers estão mudando", diz Vijay Gadepally, pesquisador sênior do LLSC. "Até agora, não havia uma ótima maneira de analisar o impacto nos data centers. Vemos essa pesquisa e o conjunto de dados como um grande passo para criar uma abordagem baseada em princípios para entender como essas variáveis ​​interagem umas com as outras e, em seguida, aplicar a IA para insights e melhorias."

    Os artigos que descrevem o conjunto de dados e aplicações potenciais foram aceitos em vários locais, incluindo o IEEE International Symposium on High-Performance Computer Architecture, o IEEE International Parallel and Distributed Processing Symposium, a Annual Conference of the North American Chapter of the Association for Computational Lingüística, a Conferência de Computação Embutida e de Alto Desempenho do IEEE e a Conferência Internacional de Computação de Alto Desempenho, Redes, Armazenamento e Análise.

    Classificação da carga de trabalho

    Entre os supercomputadores TOP500 do mundo, o TX-GAIA combina hardware de computação tradicional (unidades de processamento central ou CPUs) com cerca de 900 aceleradores de unidades de processamento gráfico (GPU). Essas GPUs NVIDIA são especializadas em aprendizado profundo, a classe de IA que deu origem ao reconhecimento de fala e à visão computacional.

    O conjunto de dados abrange o uso de CPU, GPU e memória por trabalho; logs de agendamento; e dados de monitoramento físico. Comparado a conjuntos de dados semelhantes, como os do Google e da Microsoft, o conjunto de dados LLSC oferece "dados rotulados, uma variedade de cargas de trabalho de IA conhecidas e dados de séries temporais mais detalhados em comparação com conjuntos de dados anteriores. Até onde sabemos, é um dos mais abrangentes e conjuntos de dados refinados disponíveis", diz Gadepally.

    Notavelmente, a equipe coletou dados de séries temporais em um nível de detalhe sem precedentes:intervalos de 100 milissegundos em cada GPU e intervalos de 10 segundos em cada CPU, enquanto as máquinas processavam mais de 3.000 trabalhos conhecidos de aprendizado profundo. Um dos primeiros objetivos é usar esse conjunto de dados rotulado para caracterizar as cargas de trabalho que diferentes tipos de trabalhos de aprendizado profundo colocam no sistema. Esse processo extrairia recursos que revelam diferenças em como o hardware processa modelos de linguagem natural versus classificação de imagens ou modelos de design de materiais, por exemplo.

    A equipe agora lançou o MIT Datacenter Challenge para mobilizar essa pesquisa. O desafio convida os pesquisadores a usar técnicas de IA para identificar com 95% de precisão o tipo de trabalho que foi executado, usando seus dados de séries temporais rotulados como verdade.

    Esses insights podem permitir que os data centers combinem melhor a solicitação de trabalho de um usuário com o hardware mais adequado para ele, potencialmente economizando energia e melhorando o desempenho do sistema. A classificação de cargas de trabalho também pode permitir que os operadores percebam rapidamente discrepâncias resultantes de falhas de hardware, padrões ineficientes de acesso a dados ou uso não autorizado.

    Muitas opções

    Hoje, o LLSC oferece ferramentas que permitem que os usuários enviem seus trabalhos e selecionem os processadores que desejam usar, "mas é muita adivinhação por parte dos usuários", diz Samsi. "Alguém pode querer usar a GPU mais recente, mas talvez sua computação não precise dela e eles possam obter resultados tão impressionantes em CPUs ou máquinas de menor potência."

    O professor Devesh Tiwari, da Northeastern University, está trabalhando com a equipe do LLSC para desenvolver técnicas que possam ajudar os usuários a adequar suas cargas de trabalho ao hardware apropriado. Tiwari explica que o surgimento de diferentes tipos de aceleradores de IA, GPUs e CPUs deixou os usuários com muitas opções. Sem as ferramentas certas para aproveitar essa heterogeneidade, eles estão perdendo os benefícios:melhor desempenho, custos mais baixos e maior produtividade.

    "Estamos corrigindo essa lacuna de capacidade, tornando os usuários mais produtivos e ajudando os usuários a fazer ciência melhor e mais rápido sem se preocupar com o gerenciamento de hardware heterogêneo", diz Tiwari. "Meu aluno de doutorado, Baolin Li, está desenvolvendo novos recursos e ferramentas para ajudar os usuários de HPC a aproveitar a heterogeneidade quase sem intervenção do usuário, usando técnicas baseadas na otimização bayesiana e outros métodos de otimização baseados em aprendizado. Estamos procurando maneiras de introduzir a heterogeneidade em nossos data centers em uma abordagem baseada em princípios para ajudar nossos usuários a obter a vantagem máxima da heterogeneidade de forma autônoma e econômica."

    A classificação da carga de trabalho é o primeiro de muitos problemas a serem apresentados pelo Datacenter Challenge. Outros incluem o desenvolvimento de técnicas de IA para prever falhas de trabalho, economizar energia ou criar abordagens de agendamento de trabalho que melhorem a eficiência de resfriamento do data center.

    Conservação de energia

    Para mobilizar pesquisas sobre computação mais ecológica, a equipe também planeja lançar um conjunto de dados ambientais das operações TX-GAIA, contendo temperatura do rack, consumo de energia e outros dados relevantes.

    De acordo com os pesquisadores, existem grandes oportunidades para melhorar a eficiência energética dos sistemas HPC usados ​​para processamento de IA. Como exemplo, um trabalho recente no LLSC determinou que um simples ajuste de hardware, como limitar a quantidade de energia que uma GPU individual pode consumir, poderia reduzir o custo de energia do treinamento de um modelo de IA em 20%, com apenas aumentos modestos no tempo de computação. "Essa redução se traduz em aproximadamente uma semana inteira de energia doméstica para um aumento de apenas três horas", diz Gadepally.

    Eles também vêm desenvolvendo técnicas para prever a precisão do modelo, para que os usuários possam encerrar rapidamente experimentos que provavelmente não produzirão resultados significativos, economizando energia. O Datacenter Challenge compartilhará dados relevantes para permitir que os pesquisadores explorem outras oportunidades para economizar energia.

    A equipe espera que as lições aprendidas com essa pesquisa possam ser aplicadas aos milhares de data centers operados pelo Departamento de Defesa dos EUA.

    Outros colaboradores incluem pesquisadores do MIT Computer Science and Artificial Intelligence Laboratory (CSAIL). O Supertech Research Group do professor Charles Leiserson está investigando técnicas de aprimoramento de desempenho para computação paralela, e o cientista de pesquisa Neil Thompson está projetando estudos sobre maneiras de estimular os usuários de data centers a um comportamento favorável ao clima.

    Samsi apresentou este trabalho no workshop inaugural AI for Datacenter Optimization (ADOPT'22) na primavera passada como parte do IEEE International Parallel and Distributed Processing Symposium. O workshop apresentou oficialmente o Datacenter Challenge para a comunidade HPC.

    "Esperamos que esta pesquisa permita que nós e outros que administram centros de supercomputação sejamos mais responsivos às necessidades dos usuários, ao mesmo tempo em que reduzimos o consumo de energia no nível central", diz Samsi. + Explorar mais

    Primeiros estudos com Quantum Machine Learning no LHCb


    Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.



    © Ciência https://pt.scienceaq.com