Predições de amostra de ColorUNet no conjunto de validação, para imagens de entrada sem graça. As imagens de saída do ColorUNet são mais coloridas do que as imagens verdadeiras (originais). O exemplo inferior é uma fotografia antiga com tons desgastados. Crédito:Billaut, De Rochemonteix nd Thibault.
Uma equipe de pesquisadores da Universidade de Stanford desenvolveu recentemente um método de classificação da CNN para colorir imagens em tons de cinza. A ferramenta que eles criaram, chamado ColorUNet, tira inspiração da U-Net, uma rede totalmente convolucional para segmentação de imagens.
"Como parte da aula de visão computacional de Stanford, trabalhamos neste projeto por vários meses, "Vincent Billaut, um dos pesquisadores que realizou o estudo, disse TechXplore. "Nosso objetivo era reproduzir resultados de ponta usando um modelo leve, em vez de aprimorar os modelos existentes, aumentando o tamanho do conjunto de treinamento ou sua complexidade computacional, uma abordagem muito comum em problemas de CV. Queríamos que nossos resultados fossem fáceis de avaliar e visualmente atraentes, porque além de aplicativos úteis e impactantes, CV também é sobre coisas legais. "
Billaut e seus colegas decidiram abordar a tarefa de colorir automaticamente imagens em tons de cinza do ângulo da classificação, trabalhando com um conjunto finito de possibilidades de cores. Seu modelo seguiu uma função de perda e previsão, favorecendo imagens coloridas em vez de realistas.
"Em vez de tentar prever as cores diretamente por meio de uma tarefa de regressão, dividimos todas as cores em caixas, com uma tarefa de classificação, "Marc Thibault, outro pesquisador envolvido no estudo, disse TechXplore. "Formular o problema como uma tarefa de classificação nos permite ter melhor controle sobre o quão colorido queremos que nossa saída pareça, ajustando como prevemos uma cor a partir da saída da rede. "
A arquitetura do ColorUNet. Estrutura do ColorUNet. Os pesquisadores usam 3 tipos de células:células DownConv que usam 2 camadas convolucionais empilhadas para ter um grande campo perceptivo e um maxpool para reduzir a resolução da imagem, Células UpConv que usam 1 camada ConvTranspose para aumentar a amostragem da imagem e, em seguida, 2 camadas convolucionais, e uma célula de Saída que é uma versão simplificada da célula UpConv. Crédito:Billaut, De Rochemonteix e Thibault.
Os pesquisadores treinaram seu modelo em subconjuntos dos conjuntos de dados SUN e ImageNet, que contêm imagens de paisagens. A arquitetura de rede neural que desenvolveram permitiu que seu algoritmo de aprendizado profundo extraísse informações locais e globais de cada imagem em tons de cinza.
"O algoritmo pode então decidir sobre a cor de uma região com base em seu próprio aspecto, bem como no contexto em torno dele, "Thibault disse." Em geral, é crucial que as técnicas de IA para a tomada de decisões na vida real alavanquem tanto a identificação localmente precisa do sujeito quanto a compreensão do contexto mais amplo. "
Um dos principais objetivos do estudo era desenvolver uma arquitetura leve que fosse escalonável, mas também funcionou bem como modelos de última geração em tarefas de colorização. Para alcançar isto, os pesquisadores limitaram a tarefa a imagens de paisagens naturais.
Imagem de MRI de código aberto que pode ser processada pela ColorUNet no futuro. Crédito:Billaut, De Rochemonteix e Thibault.
"Mais importante, usamos uma arquitetura U-Net para aprimorar o desempenho e reduzir a complexidade do modelo, "Matthieu de Rochemonteix, um dos pesquisadores que realizou o estudo, disse TechXplore. "ColorUnet aborda o desempenho de ponta na subtarefa selecionada. Sua arquitetura permite um treinamento mais rápido e estável, sem comprometer a profundidade e o poder representativo do modelo. "
Quando avaliados em fotos de paisagens, ColorUNet alcançou resultados muito promissores, com o aumento de dados, melhorando significativamente o desempenho e a robustez do modelo. Os pesquisadores também aplicaram a modelagem para colorização de vídeo, propor uma maneira de suavizar as previsões de cores entre os quadros sem ter que treinar uma rede recorrente para entradas sequenciais.
“A principal contribuição desta técnica é a capacidade de um algoritmo de entender o que está acontecendo em uma imagem em escala local, alimentando-o com todo o contexto da imagem, "Disse Thibault." Embora mostrássemos sua eficiência na coloração de imagens, também estamos trabalhando em outros aplicativos, especialmente no domínio médico. No Laboratório Gevaert em Stanford, aplicamos esse método à detecção de tumor em pacientes com glioma (câncer no cérebro) com base em exames de ressonância magnética. A pesquisa está florescendo neste campo, com cada vez mais técnicas de CV sendo aplicadas à imagem médica. "
© 2018 Science X Network