Crédito CC0:domínio público
A miniaturização de câmeras de vídeo levou a uma explosão em seu uso, incluindo sua incorporação em uma variedade de dispositivos portáteis, como headcams, usado em cenários que variam de eventos esportivos a combates armados. Para analisar as tarefas realizadas em vista de tais dispositivos e fornecer orientação em tempo real para os indivíduos que os utilizam, seria útil caracterizar onde o usuário está realmente se concentrando na filmagem a cada momento, mas as ferramentas disponíveis para prever isso ainda são limitadas.
Em um novo estudo relatado na 15ª Conferência Europeia sobre Visão Computacional (ECCV 2018), pesquisadores da Universidade de Tóquio desenvolveram uma ferramenta computacional que pode aprender com as filmagens feitas com uma câmera de cabeça, neste caso de várias tarefas realizadas na cozinha, e, em seguida, prever com precisão onde o foco do usuário será o próximo alvo. Esta nova ferramenta pode ser útil para permitir que tecnologias vinculadas a vídeo prevejam quais ações o usuário está executando atualmente, e fornecer orientação adequada sobre a próxima etapa.
Os programas existentes para prever onde o olhar humano provavelmente cairá dentro de um quadro de filmagem geralmente se baseiam no conceito de "saliência visual, "que usa distinções de recursos como cor, intensidade, e contraste dentro da imagem para prever para onde uma pessoa provavelmente estará olhando. Contudo, em filmagens de sujeitos humanos realizando tarefas complexas, esta abordagem de saliência visual é inadequada, como é provável que o indivíduo mude sua atenção de um objeto para outro de forma sequencial, e muitas vezes previsível, maneiras.
Para tirar proveito dessa previsibilidade, neste estudo, a equipe usou uma nova abordagem combinando saliência visual com "previsão do olhar, "que envolve uma inteligência artificial que aprende tais sequências de ações a partir de filmagens existentes e, em seguida, aplica o conhecimento obtido para prever a direção do olhar do usuário em novas filmagens.
"Nossa nova abordagem envolve a construção de primeiro um 'mapa de saliência' para cada quadro da filmagem, em seguida, um 'mapa de atenção' baseado em onde o usuário estava olhando anteriormente e no movimento da cabeça do usuário, e, finalmente, a combinação de ambos em um 'mapa do olhar, '"Yoichi Sato diz." Nossos resultados mostraram que esta nova ferramenta superou as alternativas anteriores em termos de prever para onde o olhar do usuário da câmera foi realmente direcionado. "
Embora os resultados da equipe tenham sido obtidos por filmagens de tarefas em uma cozinha, como água fervente em um fogão, eles poderiam ser estendidos a situações como tarefas realizadas em escritórios ou fábricas. Na verdade, de acordo com o autor principal Yifei Huang, "Ferramentas para avaliar os chamados vídeos egocêntricos deste tipo podem até ser aplicadas em um contexto médico, como avaliar onde um cirurgião está se concentrando e oferecer orientação sobre as etapas mais adequadas a serem seguidas em uma operação. "
O artigo "Predicting Gaze in Egocentric Video by Learning Task-dependente Attention Transition" foi publicado nos anais da European Conference on Computer Vision (ECCV 2018) e como um artigo do arXiv em arxiv.org/abs/1803.09125.