• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Detecção de objetos em vídeo 4K e 8K usando GPUs

    Exemplo de quadro de vídeo lotado anotado usando o novo método. Crédito:Růžička e Franchetti.

    Pesquisadores da Carnegie Mellon University desenvolveram recentemente um novo modelo que permite a detecção rápida e precisa de objetos em imagens de vídeo de alta resolução 4K e 8K usando GPUs. Seu método de pipeline de atenção realiza uma avaliação em dois estágios de cada imagem ou quadro de vídeo sob resolução aproximada e refinada, limitar o número total de avaliações necessárias.

    Nos últimos anos, o aprendizado de máquina alcançou resultados notáveis ​​em tarefas de visão computacional, incluindo detecção de objetos. Contudo, a maioria dos modelos de reconhecimento de objeto normalmente tem melhor desempenho em imagens com resolução relativamente baixa. Como a resolução dos dispositivos de gravação está melhorando rapidamente, há uma necessidade crescente de ferramentas que possam processar dados de alta resolução.

    "Estávamos interessados ​​em encontrar e superar as limitações das abordagens atuais, "Vít Růžička, um dos pesquisadores que realizaram o estudo disse ao TechXplore. "Embora muitas fontes de dados gravem em alta resolução, modelos de detecção de objetos de última geração, como YOLO, RCNN mais rápido, SSD, etc, trabalhe com imagens que têm uma resolução relativamente baixa de aproximadamente 608 x 608 px. Nosso principal objetivo era dimensionar a tarefa de detecção de objetos para vídeos de 4K-8K (até 7680 x 4320 px), mantendo a alta velocidade de processamento. Também queríamos entender se e até que ponto podemos nos beneficiar com a alta resolução em comparação com o uso de imagens de baixa resolução, em termos de precisão dos modelos. "

    O pipeline de atenção proposto por Růžička e seu colega Franz Franchetti divide a tarefa de detecção de objetos em dois estágios. Em ambas as fases, os pesquisadores subdividiram a imagem original sobrepondo-a com uma grade regular e, em seguida, aplicaram o modelo YOLO v2 para detecção rápida de objetos.

    Tratamento de resolução no exemplo de processamento de quadro de vídeo 4K. Durante a etapa de atenção, a imagem é processada em resolução aproximada, permitindo que os pesquisadores decidam quais regiões da imagem devem ser ativas na avaliação final mais precisa. Crédito:Růžička e Franchetti.

    "Nós criamos muitas pequenas colheitas retangulares, que pode ser processado pelo YOLO v2 em vários servidores de trabalho, de uma maneira paralela, "Růžička explicou." O primeiro estágio olha para a imagem reduzida em resolução mais baixa e executa uma detecção rápida de objeto para obter caixas delimitadoras grosseiras. O segundo estágio usa essas caixas delimitadoras como um mapa de atenção para decidir onde precisamos verificar a imagem em alta resolução. Portanto, quando algumas áreas da imagem não contêm nenhum objeto de interesse, podemos economizar no processamento em alta resolução. "

    O pipeline de atenção. Repartição gradual da imagem original em diferentes resoluções efetivas. Crédito:Růžička e Franchetti.

    Os pesquisadores implementaram seu modelo em código, distribuindo seu trabalho em GPUs. Eles foram capazes de manter uma alta precisão enquanto alcançavam um desempenho médio de três a seis fps em vídeos 4K e dois fps em vídeos 8K. Seu método rendeu benefícios significativos, com a precisão média medida no conjunto de dados testado aumentando de 33,6 AP 50 para 74,3 AP 50 ao processar imagens em alta resolução em comparação com imagens em escala reduzida para baixa resolução, que é como o YOLO v2 geralmente funciona.

    "Nosso método reduziu o tempo necessário para processar imagens de alta resolução em aproximadamente 20 por cento, em comparação com o processamento de todas as partes da imagem original em alta resolução, "Růžička disse." A implicação prática disso é que o processamento de vídeo 4K quase em tempo real é viável. Nosso método também requer um número menor de trabalhadores de servidor para concluir esta tarefa. "

    Apesar dos resultados muito promissores obtidos por este novo método de detecção de objetos, o uso de uma grade regular sobrepondo a imagem original pode dar origem a uma série de problemas. Por exemplo, às vezes pode resultar em objetos detectados sendo cortados pela metade, que requer uma etapa de pós-processamento nas caixas delimitadoras detectadas. Růžička e Franchetti estão atualmente explorando maneiras de abordar e contornar esses problemas para melhorar ainda mais seu modelo.

    © 2018 Science X Network




    © Ciência https://pt.scienceaq.com