Uma nova técnica para treinar modelos de reconhecimento de vídeo é até três vezes mais rápida do que os métodos atuais de última geração, enquanto melhora o desempenho do tempo de execução em dispositivos móveis. O trabalho foi recentemente destacado por Dario Gil (acima), diretor da IBM Research, na Semana de Pesquisa de AI do MIT-IBM Watson AI Lab em Cambridge, Massachusetts. Foto:Song Han
Um ramo do aprendizado de máquina chamado aprendizado profundo ajudou os computadores a superar os humanos em tarefas visuais bem definidas, como ler exames médicos, mas à medida que a tecnologia se expande para a interpretação de vídeos e eventos do mundo real, os modelos estão ficando maiores e mais intensivos em termos de computação.
Por uma estimativa, treinar um modelo de reconhecimento de vídeo pode consumir até 50 vezes mais dados e oito vezes mais poder de processamento do que treinar um modelo de classificação de imagem. Isso é um problema, pois a demanda por poder de processamento para treinar modelos de aprendizagem profunda continua a aumentar exponencialmente e as preocupações com a enorme pegada de carbono da IA aumentam. Executando grandes modelos de reconhecimento de vídeo em dispositivos móveis de baixa energia, onde muitos aplicativos de IA estão indo, também permanece um desafio.
Song Han, professor assistente do Departamento de Engenharia Elétrica e Ciência da Computação (EECS) do MIT, está enfrentando o problema projetando modelos de aprendizagem profunda mais eficientes. Em um artigo na Conferência Internacional sobre Visão Computacional, Han, Ji Lin, estudante de pós-graduação do MIT, e Chuang Gan, pesquisador do MIT-IBM Watson AI Lab, delinear um método para reduzir os modelos de reconhecimento de vídeo para acelerar o treinamento e melhorar o desempenho do tempo de execução em smartphones e outros dispositivos móveis. Seu método torna possível reduzir o modelo a um sexto do tamanho, reduzindo os 150 milhões de parâmetros em um modelo de última geração para 25 milhões de parâmetros.
"Nosso objetivo é tornar a IA acessível a qualquer pessoa com um dispositivo de baixo consumo de energia, "diz Han." Para fazer isso, precisamos projetar modelos de IA eficientes que usem menos energia e possam funcionar sem problemas em dispositivos de ponta, para onde muito da IA está se movendo. "
A queda do custo das câmeras e do software de edição de vídeo e o surgimento de novas plataformas de streaming de vídeo inundaram a Internet com novos conteúdos. A cada hora, 30, 000 horas de novo vídeo são carregadas apenas no YouTube. Ferramentas para catalogar esse conteúdo com mais eficiência ajudariam os espectadores e anunciantes a localizar os vídeos com mais rapidez, dizem os pesquisadores. Essas ferramentas também ajudariam instituições como hospitais e lares de idosos a executar aplicativos de IA localmente, em vez de na nuvem, para manter os dados confidenciais privados e seguros.
Os modelos de imagem e de reconhecimento de vídeo subjacentes são redes neurais, que são vagamente modelados em como o cérebro processa as informações. Seja uma foto digital ou uma sequência de imagens de vídeo, as redes neurais procuram padrões nos pixels e constroem uma representação cada vez mais abstrata do que veem. Com exemplos suficientes, redes neurais "aprendem" a reconhecer pessoas, objetos, e como eles se relacionam.
Os principais modelos de reconhecimento de vídeo atualmente usam convoluções tridimensionais para codificar a passagem do tempo em uma sequência de imagens, que cria maior, modelos mais intensivos em computação. Para reduzir os cálculos envolvidos, Han e seus colegas projetaram uma operação que eles chamam de módulo de deslocamento temporal que transfere os mapas de recursos de um quadro de vídeo selecionado para os quadros vizinhos. Ao misturar representações espaciais do passado, presente, e futuro, o modelo tem uma noção da passagem do tempo sem representá-lo explicitamente.
O resultado:um modelo que superou seus pares no reconhecimento de ações no conjunto de dados de vídeo Something-Something, ganhando o primeiro lugar na versão 1 e versão 2, em classificações públicas recentes. Uma versão online do módulo de turno também é ágil o suficiente para ler movimentos em tempo real. Em uma demonstração recente, Lin, um Ph.D. estudante no EECS, mostrou como um computador de placa única conectado a uma câmera de vídeo pode classificar instantaneamente os gestos das mãos com a quantidade de energia necessária para acender uma lanterna de bicicleta.
Normalmente, levaria cerca de dois dias para treinar um modelo tão poderoso em uma máquina com apenas um processador gráfico. Mas os pesquisadores conseguiram emprestar tempo no supercomputador Summit do Departamento de Energia dos EUA, atualmente classificado como o mais rápido da Terra. Com o poder de fogo extra da Summit, os pesquisadores mostraram que com 1, 536 processadores gráficos, o modelo pode ser treinado em apenas 14 minutos, perto de seu limite teórico. Isso é até três vezes mais rápido do que os modelos 3-D de última geração, eles dizem.
Dario Gil, diretor da IBM Research, destacou o trabalho em seus recentes comentários de abertura na AI Research Week, organizada pelo MIT-IBM Watson AI Lab.
"Os requisitos de computação para grandes trabalhos de treinamento de IA dobram a cada 3,5 meses, "disse ele mais tarde." Nossa capacidade de continuar empurrando os limites da tecnologia vai depender de estratégias como essa que combinam algoritmos hipereficientes com máquinas poderosas. "
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.