(L-R) Professor Assistente Michael Carbin do MIT e aluno de PhD Jonathan Frankle. Crédito:Jason Dorfman / MIT CSAIL
Nos dias de hoje, quase todos os produtos baseados em inteligência artificial em nossas vidas dependem de "redes neurais profundas" que aprendem automaticamente a processar dados rotulados.
Para a maioria das organizações e indivíduos, no entanto, o aprendizado profundo é difícil de entrar. Para aprender bem, redes neurais normalmente precisam ser muito grandes e precisam de conjuntos de dados massivos. Esse processo de treinamento geralmente requer vários dias de treinamento e unidades de processamento gráfico (GPUs) caras - e às vezes até hardware personalizado.
Mas e se eles não precisassem ser tão grandes, Afinal?
Em um novo jornal, pesquisadores do Laboratório de Ciência da Computação e Inteligência Artificial do MIT (CSAIL) mostraram que as redes neurais contêm sub-redes que têm até um décimo do tamanho, mas capazes de ser treinadas para fazer previsões igualmente precisas - e às vezes podem aprender a fazer isso ainda mais rápido do que o originais.
A abordagem da equipe não é particularmente eficiente agora - eles devem treinar e "podar" toda a rede várias vezes antes de encontrar a sub-rede bem-sucedida. Contudo, O professor assistente do MIT, Michael Carbin, diz que as descobertas de sua equipe sugerem que, se pudermos determinar precisamente qual parte da rede original é relevante para a previsão final, os cientistas podem um dia ser capazes de pular totalmente esse processo caro. Essa revelação tem o potencial de economizar horas de trabalho e tornar mais fácil a criação de modelos significativos por programadores individuais, e não apenas grandes empresas de tecnologia.
"Se a rede inicial não precisava ser tão grande para começar, por que você não pode simplesmente criar um com o tamanho certo no início? "diz o aluno de Ph.D. Jonathan Frankle, que apresentou seu novo artigo em coautoria com Carbin na Conferência Internacional sobre Representações de Aprendizagem (ICLR) em Nova Orleans. O projeto foi nomeado um dos dois melhores artigos do ICLR, de aproximadamente 1, 600 envios.
A equipe compara os métodos tradicionais de aprendizado profundo a uma loteria. Treinar grandes redes neurais é como tentar garantir que você vai ganhar na loteria comprando cegamente todos os bilhetes possíveis. Mas e se pudéssemos selecionar os números vencedores logo no início?
"Com uma rede neural tradicional, você inicializa aleatoriamente essa grande estrutura, e depois de treiná-lo em uma grande quantidade de dados, ele funciona magicamente, "Carbin diz." Essa grande estrutura é como comprar um grande saco de ingressos, mesmo que haja apenas um pequeno número de ingressos que o farão realmente rico. A ciência restante é descobrir como identificar os bilhetes vencedores sem ver os números vencedores primeiro. "
O trabalho da equipe também pode ter implicações para a chamada "aprendizagem por transferência, "onde redes treinadas para uma tarefa como reconhecimento de imagem são construídas para ajudar em uma tarefa completamente diferente.
O aprendizado de transferência tradicional envolve o treinamento de uma rede e, em seguida, a adição de mais uma camada no topo, que é treinada para outra tarefa. Em muitos casos, uma rede treinada para um propósito é capaz de extrair algum tipo de conhecimento geral que pode ser usado posteriormente para outro propósito.
Por mais hype que as redes neurais tenham recebido, muitas vezes não se fala muito em como é difícil treiná-los. Porque eles podem ser proibitivamente caros para treinar, os cientistas de dados precisam fazer muitas concessões, pesando uma série de compensações em relação ao tamanho do modelo, a quantidade de tempo que leva para treinar, e seu desempenho final.
Para testar a chamada "hipótese do bilhete de loteria" e demonstrar a existência dessas sub-redes menores, a equipe precisava de uma maneira de encontrá-los. Eles começaram usando uma abordagem comum para eliminar conexões desnecessárias de redes treinadas para fazê-las caber em dispositivos de baixo consumo de energia como smartphones:eles "podaram" conexões com os "pesos" mais baixos (quanto a rede prioriza essa conexão).
Sua principal inovação foi a ideia de que as conexões que foram eliminadas depois que a rede foi treinada podem nunca ter sido necessárias. Para testar esta hipótese, eles tentaram treinar exatamente a mesma rede novamente, mas sem as conexões podadas. Mais importante, eles "redefinem" cada conexão com o peso atribuído no início do treinamento. Esses pesos iniciais são vitais para ajudar a ganhar um bilhete de loteria:sem eles, as redes podadas não aprenderiam. Ao podar mais e mais conexões, eles determinaram o quanto poderia ser removido sem prejudicar a capacidade de aprendizagem da rede.
Para validar essa hipótese, eles repetiram esse processo dezenas de milhares de vezes em muitas redes diferentes em uma ampla gama de condições.
"Foi surpreendente ver que redefinir uma rede com bom desempenho geralmente resultava em algo melhor, " says Carbin. "This suggests that whatever we were doing the first time around wasn't exactly optimal, and that there's room for improving how these models learn to improve themselves."
As a next step, the team plans to explore why certain subnetworks are particularly adept at learning, and ways to efficiently find these subnetworks.
"Understanding the 'lottery ticket hypothesis' is likely to keep researchers busy for years to come, " says Daniel Roy, an assistant professor of statistics at the University of Toronto, who was not involved in the paper. "The work may also have applications to network compression and optimization. Can we identify this subnetwork early in training, thus speeding up training? Whether these techniques can be used to build effective compression schemes deserves study."
This story is republished courtesy of MIT News (web.mit.edu/newsoffice/), a popular site that covers news about MIT research, innovation and teaching.