• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Recuperando dimensões perdidas de imagens e vídeo

    Um novo modelo desenvolvido no MIT recupera dados valiosos perdidos de imagens e vídeos que foram “colapsados” em dimensões inferiores. Pode, por exemplo, recrie o vídeo a partir de imagens borradas pelo movimento ou de câmeras que capturam o movimento das pessoas nos cantos como linhas unidimensionais vagas. Crédito:Massachusetts Institute of Technology

    Os pesquisadores do MIT desenvolveram um modelo que recupera dados valiosos perdidos de imagens e vídeos que foram "colapsados" em dimensões inferiores.

    O modelo pode ser usado para recriar vídeo a partir de imagens borradas de movimento, ou de novos tipos de câmeras que capturam o movimento de uma pessoa nos cantos, mas apenas como linhas unidimensionais vagas. Embora sejam necessários mais testes, os pesquisadores acham que essa abordagem poderia algum dia ser usada para converter imagens médicas 2-D em exames corporais 3-D mais informativos, porém mais caros, o que poderia beneficiar a imagem médica em nações mais pobres.

    "Em todos esses casos, os dados visuais têm uma dimensão - no tempo ou no espaço - que está completamente perdida, "diz Guha Balakrishnan, um pós-doutorado no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e primeiro autor em um artigo que descreve o modelo, que está sendo apresentado na Conferência Internacional sobre Visão Computacional da próxima semana. “Se recuperarmos essa dimensão perdida, pode ter várias aplicações importantes. "

    Os dados visuais capturados muitas vezes reduzem os dados de várias dimensões de tempo e espaço em uma ou duas dimensões, chamado de "projeções". Raios X, por exemplo, recolher dados tridimensionais sobre estruturas anatômicas em uma imagem plana. Ou, considere uma tomada de longa exposição de estrelas se movendo no céu:as estrelas, cuja posição está mudando com o tempo, aparecem como faixas borradas na foto.

    Da mesma forma, "câmeras de canto, "recentemente inventado no MIT, detectar pessoas em movimento nos cantos. Isso pode ser útil para, dizer, bombeiros encontrando pessoas em prédios em chamas. Mas as câmeras não são exatamente amigáveis. Atualmente, eles só produzem projeções que parecem borradas, linhas onduladas, correspondendo à trajetória e velocidade de uma pessoa.

    Os pesquisadores inventaram um modelo de "desprojeção visual" que usa uma rede neural para "aprender" padrões que combinam projeções de baixa dimensão com suas imagens e vídeos de alta dimensão originais. Dadas as novas projeções, o modelo usa o que aprendeu para recriar todos os dados originais de uma projeção.

    Em experimentos, o modelo sintetizou quadros de vídeo precisos mostrando pessoas caminhando, extraindo informações de um único, linhas unidimensionais semelhantes às produzidas por câmeras de canto. O modelo também recuperou frames de vídeo de um único, projeções de dígitos que se movem ao redor de uma tela, do popular conjunto de dados Moving MNIST.

    Juntando-se a Balakrishnan no papel estão:Amy Zhao, um aluno de pós-graduação no Departamento de Engenharia Elétrica e Ciência da Computação (EECS) e CSAIL; Professores do EECS John Guttag, Fredo Durand, e William T. Freeman; e Adrian Dalca, membro do corpo docente de radiologia da Harvard Medical School.

    Pistas em pixels

    O trabalho começou como um "problema de inversão legal" para recriar o movimento que causa o borrão de movimento na fotografia de longa exposição, Balakrishnan diz. Nos pixels de uma projeção existem algumas pistas sobre a fonte de alta dimensão.

    Câmeras digitais que capturam fotos de longa exposição, por exemplo, basicamente agregará fótons durante um período de tempo em cada pixel. Ao capturar o movimento de um objeto ao longo do tempo, a câmera pegará o valor médio dos pixels de captura de movimento. Então, ele aplica esses valores médios às alturas e larguras correspondentes de uma imagem estática, que cria as faixas borradas características da trajetória do objeto. Calculando algumas variações na intensidade do pixel, o movimento pode, teoricamente, ser recriado.

    Como os pesquisadores perceberam, esse problema é relevante em muitas áreas:raios-X, por exemplo, altura de captura, largura, e informações de profundidade de estruturas anatômicas, mas eles usam uma técnica semelhante de média de pixels para reduzir a profundidade em uma imagem 2-D. Câmeras de canto - inventadas em 2017 por Freeman, Durand, e outros pesquisadores - capturam sinais de luz refletidos em torno de uma cena oculta que carregam informações bidimensionais sobre a distância de uma pessoa de paredes e objetos. A técnica de média de pixels, então, recolhe esses dados em um vídeo unidimensional - basicamente, medições de diferentes comprimentos ao longo do tempo em uma única linha.

    Os pesquisadores construíram um modelo geral, com base em uma rede neural convolucional (CNN) - um modelo de aprendizado de máquina que se tornou uma potência para tarefas de processamento de imagem - que captura pistas sobre qualquer dimensão perdida em pixels médios.

    Sinais de síntese

    Em treinamento, os pesquisadores alimentaram a CNN com milhares de pares de projeções e suas fontes de alta dimensão, chamados de "sinais". A CNN aprende padrões de pixel nas projeções que correspondem aos dos sinais. O CNN é alimentado por uma estrutura chamada "autoencoder variacional, "que avalia o quão bem as saídas da CNN correspondem às suas entradas em alguma probabilidade estatística. A partir disso, o modelo aprende um "espaço" de todos os sinais possíveis que poderiam ter produzido uma determinada projeção. Isso cria, em essência, um tipo de plano de como ir de uma projeção a todos os sinais correspondentes possíveis.

    Quando mostrado projeções não vistas anteriormente, o modelo anota os padrões de pixel e segue as plantas para todos os sinais possíveis que poderiam ter produzido aquela projeção. Então, ele sintetiza novas imagens que combinam todos os dados da projeção e todos os dados do sinal. Isso recria o sinal de alta dimensão.

    Para um experimento, os pesquisadores coletaram um conjunto de dados de 35 vídeos de 30 pessoas caminhando em uma área especificada. Eles recolheram todos os quadros em projeções que usaram para treinar e testar o modelo. De um conjunto de seis projeções invisíveis, o modelo recriou com precisão 24 quadros da marcha da pessoa, até a posição das pernas e o tamanho da pessoa conforme ela se aproxima ou se afasta da câmera. O modelo parece aprender, por exemplo, que os pixels que ficam mais escuros e largos com o tempo provavelmente correspondem a uma pessoa se aproximando da câmera.

    "É quase como mágica que conseguimos recuperar esse detalhe, "Balakrishnan diz.

    Os pesquisadores não testaram seu modelo em imagens médicas. Mas agora eles estão colaborando com colegas da Cornell University para recuperar informações anatômicas 3-D de imagens médicas 2-D, como raios X, sem custos adicionais - o que pode permitir imagens médicas mais detalhadas em países mais pobres. Os médicos preferem principalmente varreduras 3D, como aqueles capturados com tomografias, porque eles contêm informações médicas muito mais úteis. Mas as tomografias geralmente são difíceis e caras de adquirir.

    “Se pudermos converter raios-X em tomografias computadorizadas, isso mudaria um pouco o jogo, "Balakrishnan diz." Você poderia simplesmente tirar um raio-X e empurrá-lo através de nosso algoritmo e ver todas as informações perdidas. "

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com