• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Usando técnicas de aprendizado profundo para localizar atividades humanas potenciais em vídeos

    O detector 'YoTube' ajuda a tornar a IA mais centrada no ser humano. Crédito:iStock

    Quando um policial começa a levantar a mão no trânsito, motoristas humanos percebem que o policial está prestes a sinalizar para que parem. Mas os computadores acham mais difícil calcular as próximas ações prováveis ​​das pessoas com base em seu comportamento atual. Agora, uma equipe de pesquisadores e colegas da A * STAR desenvolveu um detector que pode detectar com sucesso onde as ações humanas ocorrerão nos vídeos, quase em tempo real.

    A tecnologia de análise de imagem precisará se tornar melhor na compreensão das intenções humanas se for empregada em uma ampla gama de aplicações, diz Hongyuan Zhu, um cientista da computação no Institute for Infocomm Research da A * STAR, quem conduziu o estudo. Carros sem motorista devem ser capazes de detectar policiais e interpretar suas ações com rapidez e precisão, para uma direção segura, ele explica. Os sistemas autônomos também podem ser treinados para identificar atividades suspeitas, como combates, roubo, ou deixando cair itens perigosos, e alertar os oficiais de segurança.

    Os computadores já são extremamente bons em detectar objetos em imagens estáticas, graças às técnicas de aprendizado profundo, que usam redes neurais artificiais para processar informações de imagens complexas. Mas os vídeos com objetos em movimento são mais desafiadores. "Compreender as ações humanas em vídeos é uma etapa necessária para construir máquinas mais inteligentes e amigáveis, "diz Zhu.

    Os métodos anteriores para localizar ações humanas em potencial em vídeos não usavam estruturas de aprendizado profundo e eram lentos e sujeitos a erros, diz Zhu. Para superar isso, o detector YoTube da equipe combina dois tipos de redes neurais em paralelo:uma rede neural estática, que já provou ser preciso no processamento de imagens estáticas, e uma rede neural recorrente, normalmente usado para processar dados variáveis, para reconhecimento de fala. "Nosso método é o primeiro a reunir detecção e rastreamento em um pipeline de aprendizado profundo, "diz Zhu.

    A equipe testou o YoTube em mais de 3, 000 vídeos usados ​​rotineiramente em experimentos de visão computacional. Eles relatam que superou os detectores de última geração na detecção correta de ações humanas em potencial em aproximadamente 20 por cento para vídeos que mostram atividades cotidianas gerais e cerca de 6 por cento para vídeos de esportes. O detector ocasionalmente comete erros se as pessoas no vídeo são pequenas, ou se houver muitas pessoas no fundo. Apesar disso, Zhu diz, "Demonstramos que podemos detectar a maioria das regiões de ação humana em potencial quase em tempo real."


    © Ciência https://pt.scienceaq.com