Quadros de amostra de trailers de vídeo do Moviescope mostrando a diversidade no conjunto de dados proposto. Crédito:Sitaraman et al.
Uma equipe de pesquisadores da Universidade da Virgínia realizou recentemente uma análise em grande escala com o objetivo de identificar características em trailers de filmes que melhor predizem o gênero de um filme e o orçamento estimado. Em seu estudo, descrito em um artigo pré-publicado no arXiv, os pesquisadores compararam especificamente a eficácia do visual, áudio, texto, e recursos baseados em metadados.
"A compreensão do vídeo é a próxima fronteira após a compreensão da imagem, "Vicente Ordonez, um dos pesquisadores que realizou o estudo, contado TechXplore . "Contudo, muito trabalho na compreensão do vídeo até agora se concentrou em clipes curtos com um humano realizando uma única ação. Queríamos algo mais longo, mas há também a questão do poder computacional. Os trailers de vídeo pareciam um meio-termo, como eles exibem uma infinidade de coisas, de assustador a engraçado. "
Os trailers de filmes são curtos e podem ser facilmente combinados com as descrições dos filmes. Ordonez e seus colegas perceberam que essas características os tornam ideais para investigar paralelos entre vídeo e linguagem.
Além disso, estudos recentes introduziram várias ferramentas promissoras para analisar imagens emparelhadas com descrições de texto. Os pesquisadores estavam curiosos para avaliar algumas dessas técnicas em tarefas de reconhecimento de vídeo.
Inicialmente, quando tentaram aplicar métodos bem estabelecidos para analisar clipes de vídeo curtos em trailers de filmes, os resultados foram decepcionantes. Então, eles decidiram realizar uma investigação aprofundada para identificar os recursos mais eficazes para a análise de trailers de filmes.
"Descobrimos que combinar todas as modalidades (ou seja, vídeo, texto, áudio e metadados), conseguimos reunir informações valiosas sobre as correlações esperadas entre gêneros específicos e uma modalidade particular, por exemplo, que os recursos visuais são mais valiosos ao prever um filme como animado ou não, “Paola Cascante-Bonilla, outro pesquisador envolvido no estudo, disse TechXplore. "Além disso, descobrimos que incluir o áudio em nossos experimentos aumenta significativamente o desempenho de previsão de gênero em comparação com o uso apenas do vídeo, texto e metadados. "
Os pesquisadores observaram que, embora a análise de pôsteres de filmes levasse a resultados insatisfatórios, concentrando-se em todos os recursos do filme apresentados em um trailer (ou seja, vídeo, texto, áudio e metadados) levaram a melhorias significativas. Essas descobertas são particularmente dignas de nota, pois podem ajudar a desenvolver ferramentas mais eficazes para analisar filmes e servir de base para pesquisas futuras.
Interessantemente, ao focar no vídeo, dados de texto e áudio extraídos de trailers, Ordonez, Cascante-Bonilla e seus colegas foram capazes de estimar o gênero de um filme com uma precisão comparável à obtida analisando os metadados do filme (ou seja, informações sobre seus atores, diretor, etc.). As técnicas utilizadas pelos pesquisadores em seu estudo, que combinam diferentes recursos / modalidades, poderia, portanto, ser usado para analisar uma gama mais ampla de filmes.
Em seu estudo, a equipe também introduziu um novo conjunto de dados para treinamento e avaliação de ferramentas para analisar filmes. Este conjunto de dados, chamado Moviescope, inclui 5, 000 filmes, junto com seus trailers correspondentes, pôsteres de filmes, plotagens de filmes e metadados associados.
"Nossas descobertas sugerem que apenas o resumo textual de um filme não é suficiente para diferenciar entre um filme de animação e um filme de outro gênero, "disse Siva Sivaraman, outro pesquisador envolvido no estudo que agora trabalha na Microsoft. “Você precisa 'ver' o trailer para poder decidir se um determinado filme é animado ou não. A técnica de atenção modal que usamos nos permite identificar e analisar as características às quais o modelo presta mais atenção ao prever um determinado gênero. Como previmos, o modelo aprende a pesar o recurso visual em relação a outros recursos enquanto faz previsões para o gênero de animação. "
As descobertas coletadas por essa equipe de pesquisadores podem ter implicações importantes tanto para a análise de filmes quanto para a publicidade cinematográfica. No futuro, outros grupos de pesquisa poderiam usar essas observações para desenvolver ferramentas mais eficazes para prever aspectos específicos dos filmes. Além disso, as técnicas usadas por Ordonez e seus colegas podem informar a indústria de publicidade sobre como criar trailers mais impactantes.
"Agora estamos planejando usar enredos de filmes e pôsteres para analisar a forma como os filmes são anunciados e fazer recomendações sobre como maximizar a eficácia da publicidade cinematográfica, tanto da perspectiva dos consumidores quanto dos distribuidores, "Disse Ordonez.
© 2019 Science X Network