Trevor Henderson na biblioteca de discos da WMBR, Estação de rádio estudantil do MIT. Crédito:Melanie Gonick, MIT
Na música, "portamento" é um termo usado há centenas de anos, referindo-se ao efeito de deslizar uma nota em um tom para uma nota de um tom mais baixo ou mais alto. Mas apenas instrumentos que podem variar continuamente em altura, como a voz humana, instrumentos de corda, e trombones - podem obter o efeito.
Agora, um aluno do MIT inventou um novo algoritmo que produz um efeito de portamento entre quaisquer dois sinais de áudio em tempo real. Em experimentos, o algoritmo mesclou perfeitamente vários clipes de áudio, como uma nota de piano deslizando em uma voz humana, e uma música se misturando a outra. Seu artigo descrevendo o algoritmo ganhou o prêmio de "melhor artigo de estudante" na recente Conferência Internacional sobre Efeitos de Áudio Digital.
O algoritmo se baseia no "transporte ideal, "uma estrutura baseada em geometria que determina as maneiras mais eficientes de mover objetos - ou pontos de dados - entre múltiplas configurações de origem e destino. Formulado em 1700, a estrutura foi aplicada às cadeias de abastecimento, dinâmica de fluidos, alinhamento da imagem, modelagem 3d, gráficos de computador, e mais.
No trabalho originado de um projeto de classe, Trevor Henderson, agora um estudante de graduação em ciência da computação, aplicou o transporte ideal para interpolar sinais de áudio - ou combinar um sinal em outro. O algoritmo primeiro divide os sinais de áudio em breves segmentos. Então, ele encontra a maneira ideal de mover os tons de cada segmento para os tons do outro sinal, para produzir o deslizamento suave do efeito de portamento. O algoritmo também inclui técnicas especializadas para manter a fidelidade do sinal de áudio durante a transição.
"O transporte ideal é usado aqui para determinar como mapear os tons de um som com os tons do outro, "diz Henderson, um organista com formação clássica que executa música eletrônica e foi DJ no WMBR 88.1, Estação de rádio do MIT. "Se for transformar um acorde em um acorde com uma harmonia diferente, ou com mais notas, por exemplo, as notas vão se separar do primeiro acorde e encontrar uma posição para deslizar perfeitamente para o outro acorde. "
De acordo com Henderson, esta é uma das primeiras técnicas a aplicar o transporte ideal para transformar sinais de áudio. Ele já usou o algoritmo para construir um equipamento que faz a transição perfeita entre as músicas de seu programa de rádio. DJs também podem usar o equipamento para fazer a transição entre as faixas durante apresentações ao vivo. Outros músicos podem usá-lo para misturar instrumentos e voz no palco ou no estúdio.
O co-autor de Henderson no papel é Justin Solomon, um Professor Assistente de Desenvolvimento de Carreira do X-Consortium no Departamento de Engenharia Elétrica e Ciência da Computação. Solomon - que também toca violoncelo e piano - lidera o Grupo de Processamento de Dados Geométricos no Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e é membro do Centro de Engenharia Computacional.
Henderson fez a aula de Solomon, 6,838 (Análise de Forma), que incumbe os alunos de aplicar ferramentas geométricas, como o transporte ideal para aplicativos do mundo real. Os projetos dos alunos geralmente se concentram em formas 3-D de realidade virtual ou computação gráfica. Portanto, o projeto de Henderson foi uma surpresa para Solomon. "Trevor viu uma conexão abstrata entre geometria e frequências móveis em sinais de áudio para criar um efeito de portamento, "Solomon diz." Ele estava entrando e saindo do meu escritório durante todo o semestre com equipamento de DJ. Não era o que eu esperava ver, mas foi muito divertido. "
Para Henderson, não foi muito difícil. "Quando vejo uma nova ideia, Eu pergunto, "Isso é aplicável à música?" "Ele diz." Então, quando falamos sobre transporte ideal, Eu me perguntei o que aconteceria se eu o conectasse a espectros de áudio. "
Uma boa maneira de pensar em transporte ideal, Henderson diz, é encontrar "uma maneira preguiçosa de construir um castelo de areia". Nessa analogia, a estrutura é usada para calcular a maneira de mover cada grão de areia de sua posição em uma pilha informe para uma posição correspondente em um castelo de areia, usando o mínimo de trabalho possível. Na computação gráfica, por exemplo, o transporte ideal pode ser usado para transformar ou transformar formas, encontrando o movimento ideal de cada ponto de uma forma para a outra.
Aplicar essa teoria a clipes de áudio envolve algumas idéias adicionais de processamento de sinal. Instrumentos musicais produzem som por meio de vibrações de componentes, dependendo do instrumento. Violinos usam cordas, instrumentos de latão usam ar dentro de corpos ocos, e os humanos usam cordas vocais. Essas vibrações podem ser capturadas como sinais de áudio, onde a frequência e a amplitude (altura do pico) representam tons diferentes.
Convencionalmente, a transição entre dois sinais de áudio é feita com um fade, onde um sinal é reduzido em volume enquanto o outro aumenta. Algoritmo de Henderson, por outro lado, desliza suavemente segmentos de frequência de um clipe para outro, sem diminuição do volume.
Para fazer isso, o algoritmo divide quaisquer dois clipes de áudio em janelas de cerca de 50 milissegundos. Então, ele executa uma transformação de Fourier, que transforma cada janela em seus componentes de frequência. Os componentes de frequência dentro de uma janela são agrupados em "notas" sintetizadas individuais. O transporte ideal então mapeia como as notas em uma janela de sinal irão se mover para as notas na outra.
Então, um "parâmetro de interpolação" assume. Esse é basicamente um valor que determina onde cada nota estará no caminho de sua afinação inicial em um sinal até sua afinação final no outro. Alterar manualmente o valor do parâmetro varrerá os tons entre as duas posições, produzindo o efeito de portamento. Esse único parâmetro também pode ser programado e controlado por, dizer, um cross-fader, um componente deslizante na mesa de mixagem de um DJ que desaparece suavemente entre as músicas. Conforme o cross-fader desliza, o parâmetro de interpolação muda para produzir o efeito.
Nos bastidores, há duas inovações que garantem um sinal sem distorção. Primeiro, Henderson usou uma nova aplicação de uma técnica de processamento de sinal, chamado de "reatribuição de frequência, "que agrupa as caixas de frequência para formar notas únicas que podem facilmente fazer a transição entre os sinais. Em segundo lugar, ele inventou uma maneira de sintetizar novas fases para cada sinal de áudio enquanto une as janelas de 50 milissegundos, para que as janelas vizinhas não interfiram umas nas outras.
Próximo, Henderson quer experimentar alimentar a saída do efeito de volta em sua entrada. Esse, ele pensa, poderia criar automaticamente outro efeito de música clássica, "legato, "que é uma transição suave entre notas distintas. Ao contrário de um portamento - que toca todas as notas entre uma nota inicial e uma nota final - um legato transita perfeitamente entre duas notas distintas, sem capturar nenhuma nota intermediária.
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.