Crédito CC0:domínio público
Se você puder reconhecer estruturas ao seu redor enquanto caminha por uma rua da cidade, você tem seus olhos para agradecer. Os humanos podem perceber automaticamente a estrutura 3-D no mundo, identificando linhas, formas, simetrias e os padrões e relações entre eles em coisas como edifícios, calçadas e objetos do cotidiano. Mas pode um computador ser ensinado a fazer o mesmo?
Zihan Zhou, professor assistente de ciências da informação e tecnologia na Penn State, está se preparando para explorar essa questão graças a uma doação recente da National Science Foundation.
"Queremos que um computador veja o espaço 3-D como os humanos vêem, "disse Zhou." Este prêmio e projeto em particular é sobre a percepção da estrutura, que tem sido amplamente ignorado na visão 3-D. Isso é algo que nunca foi feito antes. "
A percepção da estrutura é a habilidade dos olhos humanos de organizar dados ou padrões e agrupá-los de certas maneiras. Por exemplo, um humano pode olhar para o desenho de linha de um edifício e visualizar portas, janelas e paredes.
"Existem muitos tipos de relacionamentos no mundo real, e os humanos fazem uso dessas relações para sentir o espaço 3-D, "disse ele." Os olhos humanos podem perceber facilmente este tipo de coisas. A questão agora é:o computador pode ter a capacidade de sentir essas coisas como um ser humano faz? "
Para responder a essa pergunta, Zhou planeja desenvolver uma nova estrutura baseada em dados para descoberta de estruturas, aproveitando a disponibilidade de dados visuais massivos e avanços recentes em técnicas de aprendizado de máquina.
Essas técnicas podem então ser aplicadas a um amplo espectro de problemas de visão computacional do mundo real, incluindo modelagem 3D de ambientes urbanos, realidade virtual e aumentada, e direção autônoma. A pesquisa também pode impactar as ciências cognitivas, sugerindo novos mecanismos computacionais para compreensão de imagens; e interação humano-robô, permitindo que os robôs raciocinem em termos de forma geométrica, física e dinâmica.
"Se um robô reconhece algo como um tipo específico de estrutura, então ele sabe como interagir com ele, "disse Zhou." Por exemplo, se um robô é capaz de reconhecer uma estrutura com topo plano, saberia que poderia colocar um objeto como uma xícara sobre ele. "
Adicionalmente, a estrutura pode impactar o trabalho dos arquitetos, designers e engenheiros.
"Se você pensar nesses arquitetos, eles estão trabalhando com modelos 3D todos os dias, "disse Zhou." Se eles constroem algo, eles primeiro criam desenhos de linha. Então, se um computador pode entender portas e janelas nos desenhos, seria muito útil para projetos arquitetônicos e de engenharia. "
Zhou desenvolveu um interesse neste tópico enquanto era estagiário de pós-graduação na Adobe. Em seu estágio, ele estudou a relação entre o movimento da câmera e o ambiente, o que poderia ajudar a indústria do cinema a analisar as cenas.
“Tentei extrair alguns tipos de estruturas dos vídeos e da sequência da câmera, "disse ele." Naquele ponto, era para analisar a trajetória da câmera para a indústria do cinema, mas depois percebemos que era mais sistemático. "
Agora, na Penn State, Zhou espera alavancar a rede interdisciplinar para avançar em seu trabalho.
“O IST tem pessoas trabalhando em diversas áreas, e muitos deles podem ser impactados por este tipo de trabalho, "disse ele." Isso gerou muito interesse em diferentes áreas. Estamos procurando estender isso além e encontrar aplicativos para torná-lo mais colaborativo. "
"Cerca de 70 por cento das informações que obtemos são de pistas visuais de nossos olhos, "ele concluiu." Obviamente, temos áreas como o processamento de linguagem natural para ajudar a entender a fala e os sons, mas a visão humana é o fator dominante em como entendemos este mundo. Fazer com que o computador veja o mundo como nós o vemos é uma das áreas mais interessantes da inteligência artificial e da ciência da computação. "