É um filme de terror ou uma comédia romântica? A IA pode prever com base apenas na música
Fig 1. O pipeline do Score Stamper. Um filme é dividido em segmentos não sobrepostos de cinco segundos. Para cada segmento, Dejavu irá prever se uma faixa da trilha sonora do filme está tocando. Sugestões, ou instâncias do uso de uma música em um filme, são construídas combinando previsões de janela. Neste exemplo, a sugestão “Cantina Band” dura 15 segundos porque foi prevista por Dejavu em duas janelas próximas. Crédito:DOI:10.1371/journal.pone.0249957
A música é um elemento indispensável no filme:ela estabelece a atmosfera e o humor, impulsiona as reações emocionais do espectador e influencia significativamente a interpretação da história pelo público.
Em um artigo recente publicado em
PLOS ONE , uma equipe de pesquisa da Escola de Engenharia USC Viterbi, liderada pelo professor Shrikanth Narayanan, procurou examinar objetivamente o efeito da música nos gêneros cinematográficos. Seu estudo teve como objetivo determinar se a tecnologia baseada em IA poderia prever o gênero de um filme com base apenas na trilha sonora.
"Ao entender melhor como a música afeta a percepção do espectador de um filme, obtemos insights sobre como os criadores de filmes podem atingir seu público de uma maneira mais convincente", disse Narayanan, professor universitário e presidente de engenharia Niki e Max Nikias, professor de eletricidade e engenharia da computação e ciência da computação e diretor do Laboratório de Análise e Interpretação de Sinais da USC Viterbi (SAIL).
A noção de que diferentes gêneros de filmes são mais propensos a usar certos elementos musicais em sua trilha sonora é bastante intuitiva:um romance alegre pode incluir ricas passagens de cordas e melodias exuberantes e líricas, enquanto um filme de terror pode apresentar frequências inquietantes e penetrantes e notas estranhamente discordantes .
Mas enquanto o trabalho passado indica qualitativamente que diferentes gêneros de filmes têm seus próprios conjuntos de convenções musicais – convenções que fazem aquele filme de romance soar diferente daquele filme de terror – Narayanan e sua equipe partiram para encontrar evidências quantitativas de que elementos da trilha sonora de um filme poderiam ser usados para caracterizam o gênero do filme.
O estudo de Narayanan e sua equipe foi o primeiro a aplicar modelos de aprendizado profundo à música usada em um filme para ver se um computador poderia prever o gênero de um filme com base apenas na trilha sonora. Eles descobriram que esses modelos foram capazes de classificar com precisão o gênero de um filme usando aprendizado de máquina, apoiando a noção de que recursos musicais podem ser indicadores poderosos em como percebemos diferentes filmes.
De acordo com Timothy Greer, Ph.D. estudante da USC Viterbi no departamento de ciência da computação que trabalhou com Narayanan no estudo, seu trabalho pode ter aplicações valiosas para empresas de mídia e criadores na compreensão de como a música pode aprimorar outras formas de mídia. Poderia dar às empresas de produção e supervisores de música uma melhor compreensão de como criar e colocar música na televisão, filmes, anúncios e documentários para provocar certas emoções nos espectadores.
Além de Narayanan e Greer, a equipe de pesquisa para o estudo incluiu Dillon Knox, Ph.D. estudante do departamento de engenharia elétrica e de computação, e Benjamin Ma, que se formou na USC em 2021 com um B.S. em ciência da computação, mestrado em ciência da computação e especialização em produção musical. (Ma também foi nomeado um dos dois 2021 USC Schwarzman Scholars.) A equipe trabalhou no Centro de Inteligência de Mídia Computacional, um grupo de pesquisa em SAIL.
Prevendo gênero a partir da trilha sonora Em seu estudo, o grupo examinou um conjunto de dados de 110 filmes populares lançados entre 2014 e 2019. Eles usaram a classificação de gênero listada no Internet Movie Database (IMDb), para rotular cada filme como ação, comédia, drama, terror, romance ou ciência -ficção, com muitos dos filmes abrangendo mais de um desses gêneros.
Em seguida, eles aplicaram uma rede de aprendizado profundo que extraiu as informações auditivas, como timbre, harmonia, melodia, ritmo e tom da música e da partitura de cada filme. Essa rede usou aprendizado de máquina para analisar esses recursos musicais e se mostrou capaz de classificar com precisão o gênero de cada filme com base apenas nesses recursos.
O grupo também interpretou esses modelos para determinar quais características musicais eram mais indicativas de diferenças entre os gêneros. Os modelos não deram detalhes sobre quais tipos de notas ou instrumentos estavam associados a cada gênero, mas foram capazes de estabelecer que características tonais e timbrísticas eram mais importantes na previsão do gênero do filme.
"Estabelecer essa base é realmente empolgante porque agora podemos ser mais precisos nos tipos de perguntas que queremos fazer sobre como a música é usada no cinema", disse Knox. “A experiência geral do filme é muito complicada e ser capaz de analisar computacionalmente seu impacto e as escolhas e tendências que entram em sua construção é muito empolgante”.
Direções futuras Narayanan e sua equipe examinaram as informações auditivas de cada filme usando uma tecnologia conhecida como impressão digital de áudio, a mesma tecnologia que permite que serviços como o Shazam identifiquem músicas de um banco de dados ouvindo gravações, mesmo quando há efeitos sonoros ou outros ruídos de fundo presentes. Essa tecnologia permitiu que eles observassem onde as pistas musicais acontecem em um filme e por quanto tempo.
"Usar a impressão digital de áudio para ouvir todo o áudio do filme nos permitiu superar uma limitação dos estudos anteriores de música de filmes, que geralmente apenas olhavam para todo o álbum da trilha sonora do filme sem saber se ou quando as músicas do álbum aparecem no filme, " disse Ma. No futuro, o grupo está interessado em aproveitar essa capacidade para estudar como a música é usada em momentos específicos de um filme e como as pistas musicais ditam como a narrativa do filme evolui ao longo de seu curso.
"Com o acesso cada vez maior ao cinema e à música, nunca foi tão crucial estudar quantitativamente como essa mídia nos afeta", disse Greer. “Entender como a música funciona em conjunto com outras formas de mídia pode nos ajudar a criar melhores experiências de visualização e fazer arte comovente e impactante”.