Gêmeos digitais da cidade ajudam a treinar modelos de aprendizado profundo para separar fachadas de edifícios

Fig. 1. Comparação de conjuntos de dados anotados manualmente e conjuntos de dados sintéticos gerados automaticamente. O método convencional requer que as imagens sejam rotuladas à mão quando o conjunto de treinamento é produzido, enquanto nosso sistema proposto pode criar automaticamente dados sintéticos com anotações de instância usando ativos digitais de um gêmeo digital da cidade. Crédito:Journal of Computational Design and Engineering (2022). DOI:10.1093/jcde/qwac086

Os motores de jogo foram originalmente desenvolvidos para construir mundos imaginários para entretenimento. No entanto, esses mesmos motores podem ser usados para construir cópias de ambientes reais, ou seja, gêmeos digitais. Pesquisadores da Universidade de Osaka descobriram uma maneira de usar as imagens geradas automaticamente por gêmeos digitais de cidades para treinar modelos de aprendizado profundo que podem analisar com eficiência imagens de cidades reais e separar com precisão os edifícios que aparecem nelas.
Uma rede neural convolucional é uma rede neural de aprendizado profundo projetada para processar matrizes estruturadas de dados, como imagens. Esses avanços no aprendizado profundo mudaram fundamentalmente a maneira como as tarefas, como a segmentação arquitetônica, são executadas. No entanto, um modelo preciso de rede neural convolucional profunda (DCNN) precisa de um grande volume de dados de treinamento rotulados e rotular esses dados pode ser uma tarefa manual lenta e extremamente cara.

Para criar os dados sintéticos de cidades gêmeas digitais, os pesquisadores usaram um modelo de cidade 3D da plataforma PLATEAU, que contém modelos 3D da maioria das cidades japonesas em um nível extremamente alto de detalhes. Eles carregaram esse modelo no mecanismo de jogo Unity e criaram uma configuração de câmera em um carro virtual, que percorreu a cidade e adquiriu as imagens de dados virtuais sob várias condições de iluminação e clima. A API do Google Maps foi então usada para obter imagens reais do nível da rua da mesma área de estudo para os experimentos.

Fig. 2. Modelo tridimensional da cidade da nossa área de estudo. (a) Exemplo de um gêmeo digital de cidade com sua contraparte de vista de rua do mundo real (Wangan-doro Avenue, Tóquio; março de 2021; latitude:35,6283, longitude:139,7782). (b) Vista aérea do gêmeo digital da cidade. Crédito:CC BY, 2022 Jiaxin Zhang et al., Geração automática de conjuntos de dados sintéticos de um gêmeo digital da cidade para uso na segmentação de instâncias de fachadas de edifícios, Journal of Computational Design and Engineering

Os pesquisadores descobriram que os dados digitais da cidade gêmea levam a melhores resultados do que os dados puramente virtuais, sem contrapartida no mundo real. Além disso, adicionar dados sintéticos a um conjunto de dados real melhora a precisão da segmentação. No entanto, o mais importante, os pesquisadores descobriram que quando uma certa fração de dados reais é incluída no conjunto de dados sintéticos da cidade digital gêmea, a precisão da segmentação da DCNN é aumentada significativamente. De fato, seu desempenho se torna competitivo com o de uma DCNN treinada em dados 100% reais.

“Esses resultados revelam que nosso conjunto de dados sintético proposto poderia substituir todas as imagens reais no conjunto de treinamento”, diz Tomohiro Fukuda, autor correspondente do artigo.

Fig. 3. Resultados qualitativos para diferentes tipos e tamanhos de edifícios quando o Mask R-CNN é treinado usando conjuntos de dados HSRBFIA (Hybrid Collection of Synthetic and Real-world Building Facade Images and Annotations) com diferentes proporções de dados sintéticos para dados reais:(a) casas baixas em Osaka; (b) casas baixas em Los Angeles; (c) arranha-céus na cidade de Nova York; (d) fachadas complexas em Xangai. (Os retângulos vermelhos pontilhados destacam partes das imagens do Street View que eram propensas a falhas durante a segmentação da instância da fachada.). Crédito:CC BY, 2022 Jiaxin Zhang et al., Geração automática de conjuntos de dados sintéticos de um gêmeo digital da cidade para uso na segmentação de instâncias de fachadas de edifícios, Journal of Computational Design and Engineering

Separar automaticamente as fachadas de edifícios individuais que aparecem em uma imagem é útil para gerenciamento de construção e projeto de arquitetura, medições em grande escala para retrofits e análise de energia e até mesmo para visualizar fachadas de edifícios que foram demolidas. O sistema foi testado em várias cidades, demonstrando a transferibilidade do framework proposto. O conjunto de dados híbrido de dados reais e sintéticos produz resultados de previsão promissores para a maioria dos estilos arquitetônicos modernos. Isso o torna uma abordagem promissora para treinar DCNNs para tarefas de segmentação arquitetônica no futuro, sem a necessidade de anotações de dados manuais dispendiosas.

O estudo foi publicado no Journal of Computational Design and Engineering . + Explorar mais