Crédito CC0:domínio público
Pesquisadores da North Carolina State University desenvolveram uma nova estrutura para a construção de redes neurais profundas por meio de geradores de rede guiados por gramática. Em testes experimentais, as novas redes, chamadas de AOGNets, superaram as estruturas de última geração existentes, incluindo os sistemas ResNet e DenseNet amplamente usados, em tarefas de reconhecimento visual.
"AOGNets têm melhor precisão de previsão do que qualquer uma das redes com as quais comparamos, "diz Tianfu Wu, professor assistente de engenharia elétrica e da computação na NC State e autor correspondente de um artigo sobre o trabalho. "AOGNets também são mais interpretáveis, o que significa que os usuários podem ver como o sistema chega às suas conclusões. "
A nova estrutura usa uma abordagem de gramática composicional para a arquitetura do sistema que se baseia nas melhores práticas de sistemas de rede anteriores para extrair informações úteis de dados brutos com mais eficácia.
"Descobrimos que a gramática hierárquica e composicional nos deu uma forma simples, maneira elegante de unificar as abordagens adotadas pelas arquiteturas de sistema anteriores, e até onde sabemos, é o primeiro trabalho que faz uso de gramática para geração de rede, "Wu disse.
Para testar sua nova estrutura, os pesquisadores desenvolveram AOGNets e os testaram em relação a três benchmarks de classificação de imagem:CIFAR-10, CIFAR-100 e ImageNet-1K.
"AOGNets obteve um desempenho significativamente melhor do que todas as redes de última geração em comparações justas, incluindo ResNets, DenseNets, ResNeXts e DualPathNets, "Wu diz." AOGNets também obteve a melhor pontuação de interpretabilidade do modelo usando a métrica de dissecção de rede no ImageNet. AOGNets mostra ainda um grande potencial na defesa adversária e implantação independente de plataforma (móvel vs nuvem). "
Os pesquisadores também testaram o desempenho de AOGNets na detecção de objetos e segmentação semântica de instâncias, no benchmark Microsoft COCO, usando o sistema Vanilla Mask R-CNN.
"AOGNets obteve resultados melhores do que os backbones ResNet e ResNeXt com tamanhos de modelo menores e tempo de inferência semelhante ou ligeiramente melhor, "Wu diz." Os resultados mostram a eficácia do AOGNets aprender melhores recursos em tarefas de detecção e segmentação de objetos.
Esses testes são relevantes porque a classificação de imagens é uma das principais tarefas básicas no reconhecimento visual, e ImageNet é o benchmark padrão de classificação em grande escala. De forma similar, detecção e segmentação de objetos são duas tarefas básicas de visão de alto nível, e MS-COCO é um dos benchmarks mais amplamente usados.
"Para avaliar novas arquiteturas de rede para aprendizado profundo em reconhecimento visual, eles são os testbeds de ouro, "Wu diz." AOGNets são desenvolvidos sob uma estrutura gramatical de princípios e obtêm melhorias significativas tanto no ImageNet quanto no MS-COCO, mostrando assim impactos potencialmente amplos e profundos para a aprendizagem de representação em inúmeras aplicações práticas.
"Estamos entusiasmados com a estrutura AOGNet guiada por gramática, e estão explorando seu desempenho em outros aplicativos de aprendizado profundo, como compreensão profunda da linguagem natural, aprendizado gerador profundo e aprendizado por reforço profundo, "Wu disse.
O papel, "AOGNets:Compositional Grammatical Architectures for Deep Learning, "será apresentado na IEEE Computer Vision and Pattern Recognition Conference, sendo realizada de 16 a 20 de junho em Long Beach, Califórnia. O primeiro autor do artigo é Xilai Li, um Ph.D. estudante na NC State. O artigo foi coautor de Xi Song, um pesquisador independente.