Restaurando o equilíbrio em conjuntos de dados de aprendizado de máquina

Cinco amostras representativas para cada classe (linha) no conjunto de dados CIFAR-10. Para cada aula, essas amostras são obtidas com modelos generativos treinados após a queda do conjunto de treinamento de 40% das imagens daquela classe específica. Crédito:IBM

Se você quiser ensinar a uma criança a aparência de um elefante, você tem um número infinito de opções. Tire uma foto da National Geographic, um bicho de pelúcia de Dumbo, ou um chaveiro de elefante; mostre para a criança; e da próxima vez que ele vir um objeto que se parece com um elefante, ele provavelmente apontará e dirá a palavra.

Ensinar IA com a aparência de um elefante é um pouco diferente. Para treinar um algoritmo de aprendizado de máquina, você provavelmente precisará de milhares de imagens de elefantes usando diferentes perspectivas, como cabeça, cauda, e perfil. Mas então, mesmo depois de ingerir milhares de fotos, se você conectar seu algoritmo a uma câmera e mostrar a ele um chaveiro de elefante rosa, provavelmente não o reconhecerá como um elefante.

Esta é uma forma de polarização de dados, e muitas vezes afeta negativamente a precisão dos classificadores de aprendizado profundo. Para corrigir esse viés, usando o mesmo exemplo, precisaríamos de pelo menos 50-100 imagens de elefantes rosa, o que pode ser problemático, já que elefantes rosa são "raros".

Este é um desafio conhecido nas comunidades de aprendizado de máquina, e se seus elefantes rosa ou sinais de trânsito, pequenos conjuntos de dados apresentam grandes desafios para os cientistas de IA.

Restaurando o equilíbrio para treinamento de IA

Desde o início deste ano, meus colegas e eu na IBM Research em Zurique estamos oferecendo uma solução. Chama-se BAGAN, ou balanceamento de redes adversárias geradoras, e pode gerar imagens completamente novas, ou seja, de elefantes rosa, para restaurar o equilíbrio para o treinamento de IA.

Cinco amostras representativas geradas para as três classes majoritárias mais representadas no conjunto de dados GT-SRB. Crédito:IBM

Ver é crer

No artigo, relatamos o uso de BAGAN no benchmark alemão de reconhecimento de sinais de trânsito, bem como no MNIST e CIFAR-10, e quando comparado com o GAN de última geração, a metodologia supera todos eles em termos de variedade e qualidade das imagens geradas quando o conjunto de dados de treinamento é desequilibrado. Por sua vez, isso leva a uma maior precisão dos classificadores finais treinados no conjunto de dados aumentado.