Os modelos de aprendizado de máquina podem superar conjuntos de dados tendenciosos?
Crédito:Domínio Público CC0
Os sistemas de inteligência artificial podem concluir tarefas rapidamente, mas isso não significa que eles sempre o façam de maneira justa. Se os conjuntos de dados usados para treinar modelos de aprendizado de máquina contiverem dados tendenciosos, é provável que o sistema possa exibir esse mesmo viés ao tomar decisões na prática.
Por exemplo, se um conjunto de dados contém principalmente imagens de homens brancos, um modelo de reconhecimento facial treinado com esses dados pode ser menos preciso para mulheres ou pessoas com diferentes tons de pele.
Um grupo de pesquisadores do MIT, em colaboração com pesquisadores da Harvard University e Fujitsu, Ltd., procurou entender quando e como um modelo de aprendizado de máquina é capaz de superar esse tipo de viés de conjunto de dados. Eles usaram uma abordagem da neurociência para estudar como os dados de treinamento afetam se uma rede neural artificial pode aprender a reconhecer objetos que não viu antes. Uma rede neural é um modelo de aprendizado de máquina que imita o cérebro humano na forma como contém camadas de nós interconectados, ou "neurônios", que processam dados.
Os novos resultados mostram que a diversidade nos dados de treinamento tem uma grande influência sobre se uma rede neural é capaz de superar o viés, mas ao mesmo tempo a diversidade do conjunto de dados pode degradar o desempenho da rede. Eles também mostram que como uma rede neural é treinada e os tipos específicos de neurônios que surgem durante o processo de treinamento podem desempenhar um papel importante na capacidade de superar um conjunto de dados tendencioso.
"Uma rede neural pode superar o viés do conjunto de dados, o que é encorajador. Mas a principal conclusão aqui é que precisamos levar em conta a diversidade de dados. Precisamos parar de pensar que, se você coletar uma tonelada de dados brutos, isso será Em primeiro lugar, precisamos ser muito cuidadosos sobre como projetamos conjuntos de dados", diz Xavier Boix, pesquisador do Departamento de Cérebro e Ciências Cognitivas (BCS) e do Centro de Cérebros, Mentes e Máquinas (CBMM ), e autor sênior do artigo.
Os co-autores incluem ex-alunos de pós-graduação Spandan Madan, um autor correspondente que atualmente está cursando um doutorado. em Harvard, Timothy Henry, Jamell Dozier, Helen Ho e Nishchal Bhandari; Tomotake Sasaki, um ex-cientista visitante agora pesquisador da Fujitsu; Frédo Durand, professor de engenharia elétrica e ciência da computação e membro do Laboratório de Ciência da Computação e Inteligência Artificial; e Hanspeter Pfister, professor An Wang de Ciência da Computação na Escola de Engenharia e Ciências Aplicadas de Harvard. A pesquisa aparece hoje em
Nature Machine Intelligence .
Pensando como um neurocientista Boix e seus colegas abordaram o problema do viés do conjunto de dados pensando como neurocientistas. Na neurociência, explica Boix, é comum usar conjuntos de dados controlados em experimentos, ou seja, um conjunto de dados em que os pesquisadores sabem o máximo possível sobre as informações que ele contém.
A equipe construiu conjuntos de dados que continham imagens de objetos diferentes em poses variadas e controlou cuidadosamente as combinações para que alguns conjuntos de dados tivessem mais diversidade do que outros. Nesse caso, um conjunto de dados teria menos diversidade se contiver mais imagens que mostrem objetos de apenas um ponto de vista. Um conjunto de dados mais diversificado tinha mais imagens mostrando objetos de vários pontos de vista. Cada conjunto de dados continha o mesmo número de imagens.
Os pesquisadores usaram esses conjuntos de dados cuidadosamente construídos para treinar uma rede neural para classificação de imagens e, em seguida, estudaram o quão bem ela era capaz de identificar objetos de pontos de vista que a rede não viu durante o treinamento (conhecido como uma combinação fora de distribuição).
Por exemplo, se os pesquisadores estão treinando um modelo para classificar carros em imagens, eles querem que o modelo aprenda como são os diferentes carros. Mas se cada Ford Thunderbird no conjunto de dados de treinamento for mostrado de frente, quando o modelo treinado receber uma imagem de um Ford Thunderbird fotografado de lado, ele poderá classificá-lo incorretamente, mesmo que tenha sido treinado em milhões de fotos de carros.
The researchers found that if the dataset is more diverse—if more images show objects from different viewpoints—the network is better able to generalize to new images or viewpoints. Data diversity is key to overcoming bias, Boix says.
"But it is not like more data diversity is always better; there is a tension here. When the neural network gets better at recognizing new things it hasn't seen, then it will become harder for it to recognize things it has already seen," he says.
Testing training methods The researchers also studied methods for training the neural network.
In machine learning, it is common to train a network to perform multiple tasks at the same time. The idea is that if a relationship exists between the tasks, the network will learn to perform each one better if it learns them together.
But the researchers found the opposite to be true—a model trained separately for each task was able to overcome bias far better than a model trained for both tasks together.
"The results were really striking. In fact, the first time we did this experiment, we thought it was a bug. It took us several weeks to realize it was a real result because it was so unexpected," he says.
They dove deeper inside the neural networks to understand why this occurs.
They found that neuron specialization seems to play a major role. When the neural network is trained to recognize objects in images, it appears that two types of neurons emerge—one that specializes in recognizing the object category and another that specializes in recognizing the viewpoint.
When the network is trained to perform tasks separately, those specialized neurons are more prominent, Boix explains. But if a network is trained to do both tasks simultaneously, some neurons become diluted and don't specialize for one task. These unspecialized neurons are more likely to get confused, he says.
"But the next question now is, how did these neurons get there? You train the neural network and they emerge from the learning process. No one told the network to include these types of neurons in its architecture. That is the fascinating thing," he says.
That is one area the researchers hope to explore with future work. They want to see if they can force a neural network to develop neurons with this specialization. They also want to apply their approach to more complex tasks, such as objects with complicated textures or varied illuminations.
Boix is encouraged that a neural network can learn to overcome bias, and he is hopeful their work can inspire others to be more thoughtful about the datasets they are using in AI applications.