• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • A pesquisa perspicaz ilumina o novo possível no reino das imagens naturais e sintéticas
    p Crédito:Microsoft

    p Um par de artigos inovadores em visão computacional abre novas perspectivas sobre as possibilidades no reino da criação de imagens naturais de aparência muito real e da síntese de realistas, imagens faciais que preservam a identidade. Em CVAE-GAN:Geração de imagens de granulação fina por meio de treinamento assimétrico, apresentado em outubro passado no ICCV 2017 em Veneza, a equipe de pesquisadores da Microsoft e da Universidade de Ciência e Tecnologia da China surgiu com um modelo para geração de imagens baseado em uma rede adversária geradora de autencoder variacional capaz de sintetizar imagens naturais no que são conhecidas como categorias de granulação fina. Categorias refinadas incluiriam rostos de indivíduos específicos, dizer das celebridades, ou objetos do mundo real, como tipos específicos de flores ou pássaros. p Os pesquisadores - Dong Chen, Fang Wen e Gang Hua da Microsoft, Jianmin Bao, estagiário na Microsoft Research, juntamente com Houqiang Li, da Universidade de Ciência e Tecnologia da China - ao procurar uma melhor forma de construir modelos generativos eficazes de imagens naturais, estavam lutando com um problema chave na visão computacional:como gerar imagens muito diversas, mas realistas, variando um número finito de parâmetros latentes relacionados à distribuição natural de qualquer imagem no mundo. O desafio estava em criar um modelo gerador para capturar esses dados. Eles optaram por uma abordagem usando redes adversárias geradoras combinadas com um autocodificador variacional para criar sua estrutura de aprendizagem. A abordagem modela qualquer imagem como uma composição de rótulo e atributos latentes em um modelo probabilístico. Variando o rótulo de categoria refinado (digamos, "papagaio" ou "estorninho" para tipos específicos de pássaros, ou os nomes de celebridades específicas) que seriam inseridos no modelo generativo, a equipe foi capaz de sintetizar imagens em categorias específicas usando valores desenhados aleatoriamente em relação aos atributos latentes. Só recentemente esse tipo de aprendizado profundo tornou possível a modelagem da distribuição de imagens de objetos específicos no mundo, nos permitindo desenhar a partir desse modelo para basicamente sintetizar a imagem, explicou Gang Hua, pesquisador principal da Microsoft Research em Redmond, Washington.

    p "Nossa abordagem tem dois aspectos novos, "disse Hua." Primeiro, adotamos uma perda de entropia cruzada para a rede discriminativa e classificadora, mas optamos por um objetivo de discrepância média para a rede generativa. "A função de perda assimétrica resultante e seu efeito nos aspectos de aprendizado de máquina da estrutura foram encorajadores." A perda assimétrica realmente faz o treinamento dos GANs mais estáveis, ", disse Hua." Projetamos uma perda assimétrica para resolver o problema de instabilidade no treinamento de GANs vanilla que aborda especificamente as dificuldades numéricas ao combinar duas distribuições não sobrepostas. "

    p A outra inovação foi adotar uma rede de codificadores que pudesse aprender a relação entre o espaço latente e usar a combinação de recursos de pares para reter a estrutura das imagens sintetizadas.

    p Experimentar imagens naturais - fotografias genuínas de coisas reais encontradas na natureza, como rostos, flores e pássaros, os pesquisadores conseguiram mostrar que seus modelos de aprendizado de máquina podiam sintetizar imagens reconhecíveis com uma variedade impressionante dentro de categorias muito específicas. As aplicações potenciais cobrem tudo, desde pintura de imagem, para aumento de dados e melhores modelos de reconhecimento facial.

    p "Nossa tecnologia abordou um desafio fundamental na geração de imagens, o da controlabilidade dos fatores de identidade. Isso nos permite gerar imagens da maneira que queremos que pareçam. disse Hua. "

    p Sintetizando rostos

    p Como você consegue sintetizar imagens realistas de flores ou pássaros um passo adiante? Você olha para rostos humanos. Rostos humanos, quando tomado no contexto de identidade, estão entre as imagens mais sofisticadas que podem ser capturadas na natureza. Em direção à síntese de rosto de preservação de identidade de conjunto aberto, apresentado este mês na CVPR 2018 em Salt Lake City, os pesquisadores desenvolveram uma estrutura baseada em GAN que pode separar a identidade e os atributos dos rostos, com atributos que incluem propriedades intrínsecas como o formato do nariz e da boca ou até mesmo a idade, bem como fatores ambientais, como iluminação ou se a maquiagem foi aplicada no rosto. Embora os processos anteriores de síntese de rosto de preservação de identidade estivessem em grande parte confinados a sintetizar rostos com identidades conhecidas que já estavam contidas no conjunto de dados de treinamento, os pesquisadores desenvolveram um método para alcançar a síntese facial de preservação de identidade em domínios abertos - isto é, para um rosto que estava fora de qualquer conjunto de dados de treinamento. Para fazer isso, eles pousaram em um método único de usar uma imagem de entrada de um sujeito que produziria um vetor de identidade e combinou-o com qualquer outra imagem de rosto de entrada (não da mesma pessoa) para extrair um vetor de atributo, como pose, emoção ou iluminação. O vetor de identidade e o vetor de atributo são então recombinados para sintetizar uma nova face para o sujeito apresentando o atributo extraído. Notavelmente, a estrutura não precisa anotar e categorizar os atributos de qualquer uma das faces de forma alguma. É treinado com função de perda assimétrica para melhor preservar a identidade e estabilizar os aspectos de aprendizado de máquina. Impressionantemente, ele também pode aproveitar com eficácia grandes quantidades de imagens de rosto de treinamento não rotuladas (pense em imagens faciais aleatórias) para aumentar ainda mais a fidelidade ou a precisão dos rostos sintetizados.

    p Uma aplicação óbvia para o consumidor é o exemplo clássico do desafio do fotógrafo de tirar uma foto de grupo que inclua dezenas de assuntos; o objetivo comum é o esquivo plano ideal em que todos os assuntos são capturados com os olhos abertos e até mesmo sorrindo. "Com nossa tecnologia, a grande coisa é que eu poderia literalmente renderizar um rosto sorridente para cada um dos participantes da foto! ", exclama Hua. O que torna isso totalmente diferente da mera edição de imagem, diz Hua, é que a identidade real do rosto é preservada. Em outras palavras, embora a imagem de um participante sorridente seja sintetizada - um "momento" que de fato não ocorreu na realidade, o rosto é inequivocamente o do indivíduo; sua identidade foi preservada no processo de alteração da imagem.

    p Hua vê muitos aplicativos úteis que irão beneficiar a sociedade e vê melhorias constantes no reconhecimento de imagem, compreensão de vídeo e até mesmo as artes.


    © Ciência https://pt.scienceaq.com