Chip que compreende vários dispositivos PCM. As sondas elétricas que entram em contato com ele são usadas para enviar sinais a dispositivos individuais para realizar a multiplicação na memória. Crédito:IBM
Esta semana, no Encontro Internacional de Dispositivos Eletrônicos (IEDM) e na Conferência sobre Sistemas de Processamento de Informação Neural (NeurIPS), Os pesquisadores da IBM apresentarão um novo hardware que levará a IA ainda mais longe do que antes:direto ao limite. Nossas novas abordagens para chips digitais e analógicos de IA aumentam a velocidade e reduzem a demanda de energia para aprendizado profundo, sem sacrificar a precisão. No lado digital, estamos preparando o terreno para um novo padrão da indústria em treinamento de IA com uma abordagem que atinge total precisão com precisão de oito bits, acelerando o tempo de treinamento de duas a quatro vezes em relação aos sistemas atuais. Do lado analógico, relatamos a precisão de oito bits - a mais alta até agora - para um chip analógico, quase o dobro da precisão em comparação com os chips analógicos anteriores, enquanto consome 33x menos energia do que uma arquitetura digital de precisão semelhante. Essas conquistas anunciam uma nova era de hardware de computação projetado para liberar todo o potencial da IA.
Na era pós-GPU
As inovações em software e hardware de IA impulsionaram amplamente uma melhoria de 2,5 vezes por ano no desempenho de computação para IA desde 2009, quando as GPUs foram adotadas pela primeira vez para acelerar o aprendizado profundo. Mas estamos atingindo os limites do que as GPUs e softwares podem fazer. Para resolver nossos problemas mais difíceis, o hardware precisa ser ampliado. A próxima geração de aplicativos de IA precisará de tempos de resposta mais rápidos, cargas de trabalho de IA maiores, e dados multimodais de vários fluxos. Para liberar todo o potencial da IA, estamos redesenhando o hardware com a IA em mente:de aceleradores a hardware desenvolvido especificamente para cargas de trabalho de IA, como nossos novos chips, e, eventualmente, computação quântica para IA. Escalar IA com novas soluções de hardware é parte de um esforço mais amplo da IBM Research para mudar de IA estreita, frequentemente usado para resolver problemas específicos, tarefas bem definidas, para IA ampla, que abrange várias disciplinas para ajudar os humanos a resolver nossos problemas mais urgentes.
Aceleradores digitais AI com precisão reduzida
A IBM Research lançou a abordagem de precisão reduzida para treinamento e inferência de modelo de IA com um artigo de referência que descreve uma nova abordagem de fluxo de dados para tecnologias CMOS convencionais para acelerar plataformas de hardware reduzindo drasticamente a precisão de bits de dados e cálculos. Modelos treinados com precisão de 16 bits foram mostrados, pela primeira vez, para exibir nenhuma perda de precisão em comparação com modelos treinados com precisão de 32 bits. Nos anos seguintes, a abordagem de precisão reduzida foi rapidamente adotada como o padrão da indústria, com treinamento de 16 bits e inferência de oito bits agora comuns, e estimulou uma explosão de startups e capital de risco para chips de IA digital baseados em precisão reduzida.
O próximo padrão da indústria para treinamento de IA
O próximo marco importante no treinamento de precisão reduzida será apresentado no NeurIPS em um artigo intitulado "Treinando Redes Neurais Profundas com Números de Ponto Flutuante de 8 bits" (autores:Naigang Wang, Jungwook Choi, Daniel Brand, Chia-Yu Chen, Kailash Gopalakrishnan). Nesse artigo, uma série de novas idéias foram propostas para superar os desafios anteriores (e ortodoxias) associados à redução da precisão do treinamento abaixo de 16 bits. Usando essas novas abordagens propostas, nós demonstramos, pela primeira vez, a capacidade de treinar modelos de aprendizagem profunda com precisão de oito bits, preservando totalmente a precisão do modelo em todas as principais categorias de conjuntos de dados de IA:imagem, Fala, e texto. As técnicas aceleram o tempo de treinamento para redes neurais profundas (DNNs) de duas a quatro vezes em relação aos sistemas de 16 bits atuais. Embora anteriormente fosse considerado impossível reduzir ainda mais a precisão do treinamento, Esperamos que essa plataforma de treinamento de oito bits se torne um padrão amplamente adotado no setor nos próximos anos.
Reduzir a precisão de bits é uma estratégia que deve contribuir para plataformas de aprendizado de máquina em grande escala mais eficientes, e esses resultados marcam um avanço significativo no dimensionamento da IA. Combinando essa abordagem com uma arquitetura de fluxo de dados personalizada, uma única arquitetura de chip pode ser usada para executar com eficiência o treinamento e a inferência em uma variedade de cargas de trabalho e redes grandes e pequenas. Essa abordagem também pode acomodar "minilotes" de dados, necessária para amplas capacidades críticas de IA sem comprometer o desempenho. Realizar todos esses recursos com precisão de oito bits para treinamento também abre o domínio da ampla IA com eficiência energética no limite.
Chips analógicos para computação in-memory
Graças aos seus requisitos de baixo consumo de energia, alta eficiência energética, e alta confiabilidade, a tecnologia analógica é um ajuste natural para IA no limite. Os aceleradores analógicos vão alimentar um roteiro de aceleração de hardware de IA além dos limites das abordagens digitais convencionais. Contudo, enquanto o hardware de IA digital está em uma corrida para reduzir a precisão, analógico até agora tem sido limitado por sua precisão intrínseca relativamente baixa, impactando a precisão do modelo. Desenvolvemos uma nova técnica para compensar isso, alcançando a maior precisão até agora para um chip analógico. Nosso artigo no IEDM, "Multiplicação na memória de precisão de 8 bits com memória de mudança de fase projetada" (autores:Iason Giannopoulos, Abu Sebastian, Manuel Le Gallo, V. P. Jonnalagadda, M. Sousa, M. N. Boon, Evangelos Eleftheriou), mostra que esta técnica alcançou a precisão de oito bits em uma operação de multiplicação escalar, praticamente dobrando a precisão dos chips analógicos anteriores, e consumiu 33x menos energia do que uma arquitetura digital de precisão semelhante.
A chave para reduzir o consumo de energia é mudar a arquitetura da computação. Com o hardware de computação atual, os dados devem ser movidos da memória para os processadores para serem usados nos cálculos, o que leva muito tempo e energia. Uma alternativa é a computação in-memory, em que unidades de memória luar como processadores, efetivamente cumprindo a função dupla de armazenamento e computação. Isso evita a necessidade de transportar dados entre a memória e o processador, economizando tempo e reduzindo a demanda de energia em 90 por cento ou mais.
Memória de mudança de fase
Nosso dispositivo usa memória de mudança de fase (PCM) para computação in-memory. O PCM registra pesos sinápticos em seu estado físico ao longo de um gradiente entre amorfo e cristalino. A condutância do material muda junto com seu estado físico e pode ser modificada usando pulsos elétricos. É assim que o PCM é capaz de realizar cálculos. Como o estado pode estar em qualquer lugar ao longo do continuum entre zero e um, é considerado um valor analógico, em oposição a um valor digital, que é zero ou um, nada no meio.
Melhoramos a precisão e estabilidade dos pesos armazenados PCM com uma nova abordagem, chamado PCM projetado (Proj-PCM), no qual inserimos um segmento de projeção não isolante em paralelo ao segmento de mudança de fase. Durante o processo de gravação, o segmento de projeção tem impacto mínimo na operação do dispositivo. Contudo, durante a leitura, os valores de condutância dos estados programados são determinados principalmente pelo segmento de projeção, que é notavelmente imune às variações de condutância. Isso permite que os dispositivos Proj-PCM obtenham uma precisão muito maior do que os dispositivos PCM anteriores.
A precisão aprimorada alcançada por nossa equipe de pesquisa indica que a computação in-memory pode ser capaz de alcançar um aprendizado profundo de alto desempenho em ambientes de baixo consumo de energia, como IoT e aplicativos de ponta. Tal como acontece com nossos aceleradores digitais, nossos chips analógicos são projetados para escalar para treinamento de IA e inferência visual, Fala, e conjuntos de dados de texto e estendendo-se à ampla IA emergente. Estaremos demonstrando um chip PCM publicado anteriormente durante toda a semana no NeurIPS, usando-o para classificar dígitos escritos à mão em tempo real por meio da nuvem.
Esta história foi republicada por cortesia da IBM Research. Leia a história original aqui.