Crédito:Pixabay/CC0 Public Domain
Treinar um modelo de aprendizado de máquina para executar uma tarefa com eficiência, como classificação de imagens, envolve mostrar ao modelo milhares, milhões ou até bilhões de imagens de exemplo. Reunir conjuntos de dados tão grandes pode ser especialmente desafiador quando a privacidade é uma preocupação, como em imagens médicas. Pesquisadores do MIT e da startup DynamoFL, nascida no MIT, agora adotaram uma solução popular para esse problema, conhecida como aprendizado federado, e a tornaram mais rápida e precisa.
O aprendizado federado é um método colaborativo para treinar um modelo de aprendizado de máquina que mantém os dados confidenciais do usuário privados. Centenas ou milhares de usuários treinam seu próprio modelo usando seus próprios dados em seu próprio dispositivo. Em seguida, os usuários transferem seus modelos para um servidor central, que os combina para criar um modelo melhor que envia de volta a todos os usuários.
Uma coleção de hospitais localizados ao redor do mundo, por exemplo, poderia usar esse método para treinar um modelo de aprendizado de máquina que identifica tumores cerebrais em imagens médicas, mantendo os dados dos pacientes seguros em seus servidores locais.
Mas o aprendizado federado tem algumas desvantagens. A transferência de um grande modelo de aprendizado de máquina de e para um servidor central envolve a movimentação de muitos dados, o que tem altos custos de comunicação, especialmente porque o modelo deve ser enviado de um lado para o outro dezenas ou até centenas de vezes. Além disso, cada usuário coleta seus próprios dados, para que esses dados não sigam necessariamente os mesmos padrões estatísticos, o que prejudica o desempenho do modelo combinado. E esse modelo combinado é feito tomando uma média – não é personalizado para cada usuário.
Os pesquisadores desenvolveram uma técnica que pode resolver simultaneamente esses três problemas de aprendizado federado. Seu método aumenta a precisão do modelo de aprendizado de máquina combinado, reduzindo significativamente seu tamanho, o que acelera a comunicação entre os usuários e o servidor central. Também garante que cada usuário receba um modelo mais personalizado para seu ambiente, o que melhora o desempenho.
Os pesquisadores conseguiram reduzir o tamanho do modelo em quase uma ordem de magnitude quando comparado a outras técnicas, o que levou a custos de comunicação quatro a seis vezes menores para usuários individuais. Sua técnica também foi capaz de aumentar a precisão geral do modelo em cerca de 10%.
"Muitos artigos abordaram um dos problemas do aprendizado federado, mas o desafio era juntar tudo isso. Algoritmos que focam apenas na personalização ou na eficiência da comunicação não fornecem uma solução boa o suficiente. Queríamos ter certeza de que foram capazes de otimizar para tudo, então essa técnica pode realmente ser usada no mundo real", diz Vaikkunth Mugunthan Ph.D. '22, principal autor de um artigo que introduz esta técnica.
Mugunthan escreveu o artigo com sua orientadora, a autora sênior Lalana Kagal, principal pesquisadora do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL). O trabalho será apresentado na Conferência Europeia de Visão Computacional.
Reduzir um modelo ao tamanho O sistema desenvolvido pelos pesquisadores, chamado FedLTN, baseia-se em uma ideia de aprendizado de máquina conhecida como hipótese do bilhete de loteria. Essa hipótese diz que dentro de modelos de redes neurais muito grandes existem sub-redes muito menores que podem atingir o mesmo desempenho. Encontrar uma dessas sub-redes é semelhante a encontrar um bilhete de loteria premiado. (LTN significa "rede de bilhetes de loteria".)
As redes neurais, vagamente baseadas no cérebro humano, são modelos de aprendizado de máquina que aprendem a resolver problemas usando camadas interconectadas de nós, ou neurônios.
Encontrar uma rede de bilhetes de loteria vencedora é mais complicado do que uma simples raspadinha. Os pesquisadores devem usar um processo chamado poda iterativa. Se a precisão do modelo estiver acima de um limite definido, eles removem os nós e as conexões entre eles (como podar galhos de um arbusto) e, em seguida, testam a rede neural mais enxuta para ver se a precisão permanece acima do limite.
Outros métodos usaram essa técnica de poda para aprendizado federado para criar modelos menores de aprendizado de máquina que podem ser transferidos com mais eficiência. Mas enquanto esses métodos podem acelerar as coisas, o desempenho do modelo sofre.
Mugunthan e Kagal aplicaram algumas técnicas inovadoras para acelerar o processo de poda enquanto tornavam os novos modelos menores mais precisos e personalizados para cada usuário.
Eles aceleraram a poda evitando uma etapa em que as partes restantes da rede neural podada são "rebobinadas" para seus valores originais. Eles também treinaram o modelo antes de podá-lo, o que o torna mais preciso para que possa ser podado mais rapidamente, explica Mugunthan.
Para tornar cada modelo mais personalizado para o ambiente do usuário, eles tiveram o cuidado de não eliminar camadas na rede que capturam informações estatísticas importantes sobre os dados específicos desse usuário. Além disso, quando todos os modelos foram combinados, eles fizeram uso de informações armazenadas no servidor central para que não começasse do zero a cada rodada de comunicação.
Eles também desenvolveram uma técnica para reduzir o número de rodadas de comunicação para usuários com dispositivos com recursos limitados, como um smartphone em uma rede lenta. Esses usuários iniciam o processo de aprendizado federado com um modelo mais enxuto que já foi otimizado por um subconjunto de outros usuários.
Ganhe muito com as redes de bilhetes de loteria Quando eles testaram o FedLTN em simulações, isso levou a um melhor desempenho e reduziu os custos de comunicação em geral. Em um experimento, uma abordagem tradicional de aprendizado federado produziu um modelo com 45 megabytes de tamanho, enquanto sua técnica gerou um modelo com a mesma precisão de apenas 5 megabytes. Em outro teste, uma técnica de última geração exigiu 12.000 megabytes de comunicação entre usuários e o servidor para treinar um modelo, enquanto o FedLTN exigiu apenas 4.500 megabytes.
Com o FedLTN, os clientes com pior desempenho ainda tiveram um aumento de desempenho de mais de 10%. E a precisão geral do modelo superou o algoritmo de personalização de última geração em quase 10%, acrescenta Mugunthan.
Agora que eles desenvolveram e aperfeiçoaram o FedLTN, Mugunthan está trabalhando para integrar a técnica em uma startup de aprendizado federado que ele fundou recentemente, a DynamoFL.
Avançando, ele espera continuar aprimorando esse método. Por exemplo, os pesquisadores demonstraram sucesso usando conjuntos de dados que tinham rótulos, mas um desafio maior seria aplicar as mesmas técnicas a dados não rotulados, diz ele.
Mugunthan espera que este trabalho inspire outros pesquisadores a repensar como eles abordam o aprendizado federado.
"Este trabalho mostra a importância de se pensar sobre esses problemas de um aspecto holístico, e não apenas métricas individuais que precisam ser aprimoradas. Às vezes, melhorar uma métrica pode realmente causar um rebaixamento nas outras métricas. Em vez disso, devemos nos concentrar em como podemos melhorar um monte de coisas juntos, o que é muito importante se for implantado no mundo real", diz ele.
+ Explorar mais Pesquisadores de IA abordam o problema de 'heterogeneidade de dados' de longa data para aprendizado federado
Esta história foi republicada como cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisa, inovação e ensino do MIT.