Dada a imagem à esquerda, dois participantes do estudo fizeram a reconstrução à direita. As pessoas preferiram sua reconstrução à imagem no centro, uma versão altamente compactada do original com um tamanho de arquivo igual à quantidade de dados que os participantes usaram para fazer sua reconstrução. Crédito:Ashutosh Bhown, Soham Mukherjee e Sean Yang
Sua amiga lhe envia uma foto do cachorro que está prestes a adotar, mas tudo que você vê é um bronzeado, neblina de pixels vagamente em forma de animal. Para ter uma visão maior, ela envia o link para o perfil de adoção do cachorro porque está preocupada com seu limite de dados. Um clique e sua tela se enche de descrições e imagens muito mais satisfatórias de seu futuro melhor amigo.
Enviar um link em vez de fazer o upload de uma imagem enorme é apenas um truque que os humanos usam para transmitir informações sem queimar dados. Na verdade, esses truques podem inspirar uma classe inteiramente nova de algoritmos de compressão de imagem, de acordo com a pesquisa de uma equipe de engenheiros da Universidade de Stanford e alunos do ensino médio.
Os pesquisadores pediram que as pessoas comparassem as imagens produzidas por um algoritmo de compressão tradicional que reduz imagens enormes em borrões pixelados com aquelas criadas por humanos em condições de dados restritos - comunicação somente de texto, que pode incluir links para imagens públicas. Em muitos casos, os produtos de compartilhamento de imagens movidos a energia humana provaram ser mais satisfatórios do que o trabalho do algoritmo. Os pesquisadores apresentarão seu trabalho em 28 de março na Conferência de Compressão de Dados de 2019.
"Quase todos os compressores de imagem que temos hoje são avaliados usando métricas que não representam necessariamente o que os humanos valorizam em uma imagem, "disse Irena Fischer-Hwang, um estudante de graduação em engenharia elétrica e co-autor do artigo. "Acontece que nossos algoritmos têm um longo caminho a percorrer e podem aprender muito com a maneira como os humanos compartilham informações."
O projeto resultou de uma colaboração entre pesquisadores liderados por Tsachy Weissman, professor de engenharia elétrica, e três alunos do ensino médio que estagiaram em seu laboratório.
"Honestamente, chegamos a esta colaboração com o objetivo de dar aos alunos algo que não distraia muito da pesquisa em andamento, "disse Weissman." Mas eles queriam fazer mais, e essa ousadia levou a um artigo e a todo um novo impulso de pesquisa para o grupo. Este pode muito bem se tornar um dos projetos mais empolgantes em que já estive envolvido. "
Uma imagem com menos perdas
Converter imagens em um formato compactado, como um JPEG, os torna significativamente menores, mas perde alguns detalhes - esta forma de conversão é freqüentemente chamada de "com perdas" por esse motivo. A imagem resultante é de qualidade inferior porque o algoritmo precisa sacrificar detalhes sobre cor e luminância para consumir menos dados. Embora os algoritmos retenham detalhes suficientes para a maioria dos casos, Os estagiários de Weissman acharam que poderiam se sair melhor.
Em seus experimentos, dois alunos trabalharam juntos remotamente para recriar imagens usando um software de edição de fotos gratuito e imagens públicas da internet. Uma pessoa da dupla tinha a imagem de referência e orientou a segunda pessoa na reconstrução da foto. Ambas as pessoas puderam ver a reconstrução em andamento, mas o descritor só pôde se comunicar por texto enquanto ouvia seu parceiro falando.
O eventual tamanho do arquivo da imagem reconstruída era o tamanho compactado das mensagens de texto enviadas pelo descritor, pois era isso que seria necessário para recriar aquela imagem. (O grupo não incluiu informações de áudio.)
Os alunos então compararam as reconstruções humanas com imagens compactadas por máquina com tamanhos de arquivo iguais aos dos arquivos de texto de reconstrução. Então, se uma equipe humana criou uma imagem com apenas 2 kilobytes de texto, eles compactaram o arquivo original no mesmo tamanho. Com acesso às imagens originais, 100 pessoas fora dos experimentos avaliaram a reconstrução humana melhor do que a compressão baseada em máquina em 10 das 13 imagens.
Rostos desfocados OK
Quando as imagens originais correspondem às imagens públicas na Internet, como um cruzamento de rua, as reconstruções feitas pelo homem tiveram um desempenho particularmente bom. Até mesmo as reconstruções que combinavam várias imagens geralmente funcionavam bem, exceto em casos que apresentavam rostos humanos. Os pesquisadores não pediram a seus juízes para explicar sua classificação, mas eles têm algumas idéias sobre as disparidades que encontraram.
"Em alguns cenários, como cenas da natureza, as pessoas não se importavam se as árvores eram um pouco diferentes ou se a girafa era uma girafa diferente. Eles se preocuparam mais que a imagem não estivesse borrada, o que significa que a compressão tradicional foi classificada mais abaixo, "disse Shubham Chandak, um estudante de pós-graduação no grupo de Weissman e co-autor do artigo. "Mas para rostos humanos, as pessoas preferem ter o mesmo rosto, mesmo que esteja desfocado. "
Esta aparente fraqueza no compartilhamento de imagens humanas iria melhorar à medida que mais pessoas enviassem imagens de si mesmas para a internet. Os pesquisadores também estão se juntando a um desenhista da polícia para ver como sua experiência pode fazer a diferença. Mesmo que este trabalho mostre o valor da contribuição humana, os pesquisadores eventualmente tentariam automatizar o processo.
"O aprendizado de máquina está trabalhando em partes disso, e esperamos que possamos colocá-los em ação em breve, "disse Kedar Tatwawadi, um estudante de pós-graduação no grupo de Weissman e co-autor do artigo. “Parece que um compressor prático que trabalha com esse tipo de ideologia não está muito longe”.
Chamando todos os alunos
Weissman enfatizou o valor da contribuição dos alunos do ensino médio, mesmo além deste papel.
"Dezenas, senão centenas de milhares de horas de engenharia humana foram dedicadas ao projeto de um algoritmo em que três alunos do ensino médio vieram e chutaram seu traseiro, "disse Weissman." É humilhante considerar o quão longe estamos em nossa engenharia. "
Devido ao sucesso desta colaboração, Weissman criou um programa formal de estágio de verão em seu laboratório para alunos do ensino médio. Imaginar como um artista ou estudantes interessados em psicologia ou neurociência poderiam contribuir para este trabalho, ele está particularmente interessado em atrair alunos com interesses e experiências variadas.