• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Usando uma arquitetura GAN para restaurar arquivos de música muito compactados

    Espectrogramas de (a) trechos de áudio originais, (b) versões MP3 de 32kbit/s correspondentes e (c), (d), (e) restaurações com diferentes ruídos z amostrados aleatoriamente de N (0,I). Crédito:Lattner &Nistal.

    Nas últimas décadas, os cientistas da computação desenvolveram tecnologias e ferramentas cada vez mais avançadas para armazenar grandes quantidades de arquivos de música e áudio em dispositivos eletrônicos. Um marco particular para o armazenamento de música foi o desenvolvimento da tecnologia MP3 (ou seja, MPEG-1 camada 3), uma técnica para compactar sequências de som ou músicas em arquivos muito pequenos que podem ser facilmente armazenados e transferidos entre dispositivos.
    A codificação, edição e compactação de arquivos de mídia, incluindo arquivos PKZIP, JPEG, GIF, PNG, MP3, AAC, Cinepak e MPEG-2, é realizada usando um conjunto de tecnologias conhecidas como codecs. Codecs são tecnologias de compactação com dois componentes principais:um codificador que compacta arquivos e um decodificador que os descompacta.

    Existem dois tipos de codecs, os chamados codecs sem perdas e com perdas. Durante a descompactação, codecs sem perdas, como codecs PKZIP e PNG, reproduzem exatamente o mesmo arquivo que os arquivos originais. Os métodos de compactação com perdas, por outro lado, produzem um fac-símile do arquivo original que soa (ou se parece) com o original, mas ocupa menos espaço de armazenamento em dispositivos eletrônicos.

    Os codecs de áudio com perdas funcionam essencialmente comprimindo fluxos de áudio digital, removendo alguns dados e depois descompactando-os. Geralmente, a diferença entre o arquivo original e o descompactado é difícil ou impossível para os humanos perceberem.

    Quando codecs com perdas usam altas taxas de compactação, no entanto, eles podem introduzir deficiências e alterar perceptivelmente os sinais de áudio. Recentemente, cientistas da computação vêm tentando superar essa limitação de codecs com perdas e melhorar a qualidade dos arquivos compactados usando técnicas de aprendizado profundo.

    Pesquisadores do Sony Computer Science Laboratories (CSL) desenvolveram recentemente um novo método de aprendizado profundo para melhorar e restaurar a qualidade de músicas e gravações de áudio altamente compactadas (ou seja, arquivos de áudio compactados por codecs com perdas com altas taxas de compactação). Esse método, introduzido em um artigo pré-publicado no arXiv, é baseado em redes adversariais generativas (GANs), modelos de aprendizado de máquina em que duas redes neurais "competem" para fazer previsões cada vez mais precisas ou confiáveis.

    “Muitos trabalhos abordaram o problema de aprimoramento de áudio e remoção de artefatos de compressão usando técnicas de aprendizado profundo”, escreveram Stefan Lattner e Javier Nistal em seu artigo. "No entanto, apenas alguns trabalhos abordam a restauração de sinais de áudio altamente compactados no domínio musical. Neste estudo, testamos um gerador estocástico para uma arquitetura de rede generativa adversarial (GAN) para essa tarefa."

    Assim como outras GANs, o modelo criado por Lattner e Nistal é composto por dois modelos separados, conhecidos como "gerador (G)" e "crítico (D)". O gerador recebe um trecho de um sinal de áudio musical compactado em MP3, representado por meio de um espectrograma (ou seja, uma representação visual das frequências do espectro de um sinal de áudio).

    O gerador aprende continuamente a produzir uma versão restaurada deste sinal original, que é menor em tamanho. Enquanto isso, o componente crítico da arquitetura GAN aprende a distinguir entre os arquivos originais de alta qualidade e as versões restauradas, identificando assim as diferenças entre eles. Em última análise, as informações coletadas pelo crítico são usadas para melhorar a qualidade dos arquivos restaurados, garantindo que os dados de música ou áudio presentes nos arquivos restaurados sejam o mais fiéis possível aos originais.

    Lattner e Nistal avaliaram sua arquitetura baseada em GAN em uma série de testes, que visavam determinar se seu modelo poderia melhorar a qualidade das entradas de MP3 e gerar amostras compactadas de maior qualidade e mais próximas de um arquivo original do que aquelas criadas por outros modelos básicos para compressão de áudio. Seus resultados foram altamente promissores, pois descobriram que as restaurações do modelo de arquivos MP3 fortemente compactados (16 kbit/s e 32 kbit/s) eram tipicamente melhores do que os arquivos compactados originais, pois soavam melhor para ouvintes humanos experientes. Ao usar taxas de compactação mais fracas (64 kbit/s mono), por outro lado, a equipe descobriu que seu modelo obteve resultados ligeiramente piores do que as ferramentas de compactação MP3 de linha de base.

    "Realizamos uma extensa avaliação dos diferentes experimentos utilizando métricas objetivas e testes de audição", disseram Lattner e Nistal. "Descobrimos que os modelos podem melhorar a qualidade dos sinais de áudio sobre as versões MP3 para 16 e 32 kbit/s e que os geradores estocásticos são capazes de gerar saídas mais próximas dos sinais originais do que os geradores determinísticos."

    Como parte de seu estudo, os pesquisadores também mostraram que sua arquitetura pode gerar e adicionar com sucesso conteúdo de alta frequência realista que melhorou a qualidade de áudio de músicas compactadas. O conteúdo gerado incluiu elementos percussivos, uma voz cantada produzindo sibilantes ou plosivos (ou seja, sons de "s" e "t") e sons de violão.

    No futuro, o modelo que eles criaram poderia ajudar a reduzir significativamente o tamanho dos arquivos de música MP3 sem alterar seu conteúdo ou criar erros facilmente perceptíveis. Isso pode ter implicações significativas para o armazenamento e transmissão de música em aplicativos de streaming (por exemplo, Spotify, Apple Music etc.) e dispositivos eletrônicos modernos, incluindo smartphones, tablets e computadores. + Explorar mais

    O Google Lyra permitirá chamadas de voz para outro bilhão de usuários


    © 2022 Science X Network



    © Ciência https://pt.scienceaq.com