• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Detecção de máquina de interação humano-objeto em imagens e vídeos

    Jia-Bin Huang, professor assistente no Departamento de Engenharia Elétrica e da Computação de Bradley e membro do corpo docente do Discovery Analytics Center. Crédito:Virginia Tech

    Jia-Bin Huang, professor assistente no Departamento de Engenharia Elétrica e da Computação de Bradley e membro do corpo docente do Discovery Analytics Center, recebeu o prêmio Google Faculty Research Award para apoiar seu trabalho na detecção de interação de objetos humanos em imagens e vídeos.

    O prêmio do Google, que está na categoria Percepção de Máquina, permitirá que Huang enfrente os desafios de detectar dois aspectos da interação humano-objeto:modelar a relação entre uma pessoa e objetos / cenas relevantes para a coleta de informações contextuais e mineração de exemplos concretos automaticamente de vídeos não rotulados, mas ricos em interação.

    De acordo com Huang, embora um progresso significativo tenha sido feito na classificação, detecção, e objetos de segmentação, representar imagens / vídeos como uma coleção de instâncias de objetos isolados não conseguiu capturar as informações essenciais para a compreensão da atividade.

    "Melhorando o modelo e ampliando o treinamento, pretendemos dar um passo adiante em direção à construção de máquinas socialmente inteligentes, "Huang disse.

    Dada uma imagem ou vídeo, o objetivo é localizar pessoas e instâncias de objetos, além de reconhecer a interação, caso existam, entre cada par de uma pessoa e um objeto. Isso fornece uma representação estruturada de um gráfico visualmente fundamentado sobre os humanos e as instâncias de objeto com as quais eles interagem.

    Por exemplo:dois homens estão próximos um do outro nas laterais de uma quadra de tênis, um de pé e segurando um guarda-chuva e o outro sentado em uma cadeira segurando uma raquete de tênis e olhando para uma sacola no chão ao lado dele. Conforme o vídeo avança, os dois sorriem um para o outro, troque o guarda-chuva e a raquete de tênis, sente-se lado a lado, e beba de garrafas de água. Eventualmente, eles se voltam para olhar um para o outro, troque o guarda-chuva e a raquete de tênis novamente, e finalmente, conversem um com o outro.

    "Compreender a atividade humana em imagens e / ou vídeos é um passo fundamental para a construção de agentes socialmente conscientes, recuperação semântica de imagem / vídeo, legendagem, e responder a perguntas, "Huang disse.

    Ele disse que detectar a interação humano-computador leva a uma compreensão mais profunda da atividade centrada no ser humano.

    “Em vez de responder 'O que é onde?' o objetivo da detecção de interação humano-objeto é responder à pergunta 'O que está acontecendo?' As saídas da interação humano-objeto fornecem uma descrição mais detalhada do estado da cena e nos permitem prever melhor o futuro e compreender sua intenção, "Huang disse.

    Ph.D. o estudante Chen Gao trabalhará no projeto com Huang. Eles esperam que a pesquisa avance significativamente na detecção de objetos humanos de última geração e possibilite muitas aplicações de alto impacto, como monitoramento de integridade de longo prazo e robôs socialmente conscientes.

    Huang planeja compartilhar os resultados da pesquisa por meio de publicações em conferências e periódicos de primeira linha e também fará o código-fonte, conjuntos de dados coletados, e modelos pré-treinados produzidos a partir deste projeto disponíveis ao público.

    “Nosso projeto se alinha bem com vários dos esforços contínuos do Google para construir 'inteligência visual social'. Esperamos nos envolver com pesquisadores e engenheiros do Google para trocar e compartilhar ideias e promover futuras relações de colaboração, "Huang disse.


    © Ciência https://pt.scienceaq.com