• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  •  science >> Ciência >  >> Física
    A física das ondas como uma rede neural recorrente analógica

    Comparação conceitual de um RNN padrão e um sistema físico baseado em ondas. (A) Diagrama de uma célula RNN operando em uma sequência de entrada discreta e produzindo uma sequência de saída discreta. (B) Componentes internos da célula RNN, consistindo em matrizes densas treináveis ​​W (h), W (x), e W (y). As funções de ativação para o estado oculto e a saída são representadas por σ (h) e σ (y), respectivamente. (C) Diagrama do gráfico direcionado da célula RNN. (D) Diagrama de uma representação recorrente de um sistema físico contínuo operando em uma sequência de entrada contínua e produzindo uma sequência de saída contínua. (E) Componentes internos da relação de recorrência para a equação de onda quando discretizada por diferenças finitas. (F) Diagrama do gráfico direcionado de etapas de tempo discretas do sistema físico contínuo e ilustração de como uma perturbação de onda se propaga dentro do domínio. Crédito: Avanços da Ciência , doi:10.1126 / sciadv.aay6946

    O hardware de aprendizado de máquina analógico oferece uma alternativa promissora às contrapartes digitais como uma plataforma mais rápida e com maior eficiência energética. A física das ondas baseada em acústica e óptica é uma candidata natural para construir processadores analógicos para sinais que variam no tempo. Em um novo relatório sobre Avanços da Ciência Tyler W. Hughes e uma equipe de pesquisa nos departamentos de Física Aplicada e Engenharia Elétrica da Universidade de Stanford, Califórnia, identificou o mapeamento entre a dinâmica da física das ondas e a computação em redes neurais recorrentes.

    O mapa indicou a possibilidade de treinar sistemas de ondas físicas para aprender características complexas em dados temporais usando técnicas de treinamento padrão usadas para redes neurais. Como prova de princípio, eles demonstraram um design inverso, meio não homogêneo para realizar a classificação de vogais do inglês com base em sinais de áudio brutos à medida que suas formas de onda se espalham e propagam por ele. Os cientistas obtiveram desempenho comparável a uma implementação digital padrão de uma rede neural recorrente. As descobertas abrirão o caminho para uma nova classe de plataformas analógicas de aprendizado de máquina para processamento rápido e eficiente de informações em seu domínio nativo.

    A rede neural recorrente (RNN) é um importante modelo de aprendizado de máquina amplamente usado para realizar tarefas, incluindo processamento de linguagem natural e previsão de séries temporais. A equipe treinou sistemas físicos baseados em ondas para funcionar como um RNN e processar sinais e informações passivamente em seu domínio nativo sem conversão analógico para digital. O trabalho resultou em ganho substancial de velocidade e redução do consumo de energia. Na presente estrutura, em vez de implementar circuitos para encaminhar deliberadamente os sinais de volta para a entrada, a relação de recorrência ocorria naturalmente na própria dinâmica do tempo da física. O dispositivo forneceu a capacidade de memória para processamento de informações com base nas ondas à medida que se propagavam pelo espaço.

    Esquema da configuração de reconhecimento de vogais e o procedimento de treinamento. (A) Formas de onda de áudio brutas de amostras de vogais faladas de três classes. (B) Layout do sistema de reconhecimento de vogais. As amostras de vogais são injetadas independentemente na fonte, localizado à esquerda do domínio, e se propagam pela região central, indicado em verde, onde uma distribuição de material é otimizada durante o treinamento. A região cinza escuro representa uma camada limite absorvente. (C) Para classificação, o poder integrado no tempo em cada sonda é medido e normalizado para ser interpretado como uma distribuição de probabilidade sobre as classes de vogais. (D) Usando diferenciação automática, o gradiente da função de perda em relação à densidade do material na região verde é calculado. A densidade do material é atualizada iterativamente, usando técnicas de otimização estocástica baseada em gradiente até a convergência Crédito: Avanços da Ciência , doi:10.1126 / sciadv.aay6946

    Equivalência entre a dinâmica da onda e um RNN

    Para demonstrar a equivalência entre a dinâmica da onda e um RNN, Hughes et al. introduziu a função de um RNN e sua conexão com a dinâmica das ondas. Por exemplo, um RNN pode converter uma sequência de entradas em uma sequência de saídas aplicando a mesma operação básica a cada membro da sequência de entrada em um processo gradual. O estado oculto do RNN irá então codificar a memória das etapas anteriores para atualizar a cada etapa. Os estados ocultos podem reter a memória de informações passadas e aprender a estrutura temporal e as dependências de longo alcance nos dados.

    Em uma determinada etapa, como um exemplo, o RNN pode funcionar no vetor de entrada atual na sequência (x t ) e o vetor de estado oculto da etapa anterior (h t - 1 ), para produzir um vetor de saída (y t ) e um estado oculto atualizado (h t ) Embora existam muitas variações de RNNs, Hughes et al. implementou uma estratégia comumente incorporada no presente trabalho. A equipe de pesquisa observou uma resposta não linear, que é normalmente encontrado em uma ampla variedade de física de ondas, incluindo ondas de águas rasas, materiais ópticos não lineares (estudo de luz laser intensa com matéria) e acusticamente em materiais macios e fluidos borbulhantes. Quando modelado numericamente em tempo discreto, a equação de onda definiu uma operação mapeada na de um RNN.

    Resultados do treinamento de reconhecimento vocálico. Matriz de confusão sobre os conjuntos de dados de treinamento e teste para a estrutura inicial (A e B) e a estrutura final (C e D), indicando a porcentagem de vogais preditas corretamente (diagonal) e incorretamente (fora da diagonal). Resultados de treinamento com validação cruzada mostrando a média (linha sólida) e SD (região sombreada) da (E) perda de entropia cruzada e (F) precisão de predição em 30 épocas de treinamento e cinco dobras do conjunto de dados, que consiste em um total de 279 amostras vocálicas de falantes masculinos e femininos. (G para I) A distribuição de intensidade integrada no tempo para uma entrada selecionada aleatoriamente (G) vogal ae, (H) vogal ei, e (I) iy vogal. Crédito:Science Advances, doi:10.1126 / sciadv.aay6946

    Treinar um sistema físico para classificar as vogais

    A equipe então demonstrou como a dinâmica da equação de onda poderia ser treinada para classificar vogais através da construção de uma distribuição de material não homogênea. Por esta, eles usaram um conjunto de dados de 930 gravações de áudio bruto de 10 classes de vogais de 45 falantes masculinos diferentes e 48 falantes femininos diferentes. Para a tarefa de aprendizagem, Hugh et al. selecionou um subconjunto de 279 gravações correspondentes a três classes de vogais representadas pelos sons vocálicos "ae, "" ei "e" iy, "em relação ao seu uso nas palavras" tinha, "" hayed "e" heed ". O layout físico do sistema de reconhecimento de vogais continha um domínio bidimensional no plano xy e infinitamente estendido na direção z. Eles injetaram a forma de onda de áudio de cada vogal por meio de uma fonte em um único célula de grade no lado esquerdo do domínio para a emissão de formas de onda para se propagar através de uma região central com uma distribuição treinável da velocidade da onda. Eles definiram três sondas no lado direito da região e atribuíram cada uma a uma das três classes de vogais Hugh et al., Mediram então a potência integrada no tempo em cada ponta de prova para determinar a saída do sistema.

    A simulação evoluiu para a duração total da gravação da vogal e a equipe incluiu uma região limite absorvente representada por uma região cinza escuro para evitar o acúmulo de energia dentro do domínio computacional. As velocidades das ondas podem ser modificadas para corresponder a diferentes materiais na prática. Em um ambiente acústico, por exemplo, se a distribuição do material consistia em ar, a velocidade do som era 331 m / s, enquanto a borracha de silicone porosa constituiu uma velocidade do som de 150 m / s. A escolha da estrutura inicial permitiu que eles mudassem o otimizador para qualquer um dos dois materiais, para produzir uma estrutura binarizada contendo apenas um dos dois materiais. Hughes et al. treinou o sistema executando retropropagação através do modelo da equação de onda, em uma abordagem matematicamente equivalente ao método adjunto amplamente usado para projeto inverso. Usando essas informações de design, eles atualizaram a densidade do material por meio do algoritmo de otimização de Adam, repetindo até a convergência em uma estrutura final.

    Conteúdo de frequência das classes vocálicas. A quantidade traçada é o espectro de energia média para o ae, ei, e iy classes de vogais. a.u., unidades arbitrárias. Crédito:Science Advances, doi:10.1126 / sciadv.aay6946

    Visualizando o desempenho

    Os cientistas usaram uma matriz de confusão para visualizar o desempenho nos conjuntos de dados de treinamento e teste para as estruturas iniciais, média em cinco execuções de treinamento com validação cruzada. A matriz de confusão definiu a porcentagem de vogais preditas corretamente ao longo de suas entradas diagonais e a porcentagem de vogais preditas incorretamente para cada classe em suas entradas fora da diagonal. As matrizes de confusão treinadas diagonalmente dominantes indicaram que a estrutura poderia de fato realizar o reconhecimento de vogais. Hughes et al. observou o valor de perda de entropia cruzada e a precisão da previsão em função da época de treinamento nos conjuntos de dados de teste e treinamento.

    A primeira época resultou na maior redução da função de perda e no maior ganho na precisão da previsão, com uma precisão média de 92,6 por cento no conjunto de dados de treinamento e uma precisão média de 86,3 por cento no conjunto de dados de teste. A equipe observou o sistema para obter um desempenho de previsão quase perfeito na vogal "ae" ao lado da capacidade de diferenciar a vogal "iy" da vogal "ei" - mas com menor precisão nas amostras invisíveis dos conjuntos de dados de teste. Desta maneira, a equipe forneceu confirmação visual sobre o procedimento de otimização para direcionar a maior parte da energia do sinal para a sonda correta. Como referência de desempenho, eles treinaram um RNN convencional na mesma tarefa para alcançar uma precisão de classificação comparável à equação de onda. Contudo, eles exigiam um grande número de parâmetros livres para a tarefa.

    Desta maneira, Tyler W. Hughes e colegas apresentaram um RNN baseado em ondas com uma série de qualidades favoráveis ​​para formar um candidato promissor para processar informações codificadas temporalmente. O uso da física para realizar computação pode inspirar uma nova plataforma para dispositivos analógicos de aprendizado de máquina, a fim de realizar computação com muito mais naturalidade e eficiência do que suas contrapartes digitais. A equipe de pesquisa determinou o tamanho do estado oculto do RNN analógico e sua capacidade de memória usando o tamanho do meio de propagação. Eles mostraram que a dinâmica da equação de onda é conceitualmente equivalente à de um RNN. A conexão conceitual abrirá o caminho para uma nova classe de plataformas analógicas de hardware, em que a evolução da dinâmica do tempo terá um papel importante tanto na física quanto no conjunto de dados.

    © 2020 Science X Network




    © Ciência https://pt.scienceaq.com