Cinco amostras representativas para cada classe (linha) no conjunto de dados CIFAR-10. Para cada aula, essas amostras são obtidas com modelos generativos treinados após a queda do conjunto de treinamento de 40% das imagens daquela classe específica. Crédito:IBM
Se você quiser ensinar a uma criança a aparência de um elefante, você tem um número infinito de opções. Tire uma foto da National Geographic, um bicho de pelúcia de Dumbo, ou um chaveiro de elefante; mostre para a criança; e da próxima vez que ele vir um objeto que se parece com um elefante, ele provavelmente apontará e dirá a palavra.
Ensinar IA com a aparência de um elefante é um pouco diferente. Para treinar um algoritmo de aprendizado de máquina, você provavelmente precisará de milhares de imagens de elefantes usando diferentes perspectivas, como cabeça, cauda, e perfil. Mas então, mesmo depois de ingerir milhares de fotos, se você conectar seu algoritmo a uma câmera e mostrar a ele um chaveiro de elefante rosa, provavelmente não o reconhecerá como um elefante.
Esta é uma forma de polarização de dados, e muitas vezes afeta negativamente a precisão dos classificadores de aprendizado profundo. Para corrigir esse viés, usando o mesmo exemplo, precisaríamos de pelo menos 50-100 imagens de elefantes rosa, o que pode ser problemático, já que elefantes rosa são "raros".
Este é um desafio conhecido nas comunidades de aprendizado de máquina, e se seus elefantes rosa ou sinais de trânsito, pequenos conjuntos de dados apresentam grandes desafios para os cientistas de IA.
Restaurando o equilíbrio para treinamento de IA
Desde o início deste ano, meus colegas e eu na IBM Research em Zurique estamos oferecendo uma solução. Chama-se BAGAN, ou balanceamento de redes adversárias geradoras, e pode gerar imagens completamente novas, ou seja, de elefantes rosa, para restaurar o equilíbrio para o treinamento de IA.
Cinco amostras representativas geradas para as três classes majoritárias mais representadas no conjunto de dados GT-SRB. Crédito:IBM
Ver é crer
No artigo, relatamos o uso de BAGAN no benchmark alemão de reconhecimento de sinais de trânsito, bem como no MNIST e CIFAR-10, e quando comparado com o GAN de última geração, a metodologia supera todos eles em termos de variedade e qualidade das imagens geradas quando o conjunto de dados de treinamento é desequilibrado. Por sua vez, isso leva a uma maior precisão dos classificadores finais treinados no conjunto de dados aumentado.
Cinco amostras representativas geradas para as três classes minoritárias menos representadas no conjunto de dados GT-SRB. Crédito:IBM
Esta história foi republicada por cortesia da IBM Research. Leia a história original aqui.