• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • O sistema de aprendizado de máquina aborda o reconhecimento de fala e objetos, tudo de uma vez

    Os cientistas da computação do MIT desenvolveram um sistema que aprende a identificar objetos dentro de uma imagem, com base em uma descrição falada da imagem. Crédito:Christine Daniloff

    Os cientistas da computação do MIT desenvolveram um sistema que aprende a identificar objetos dentro de uma imagem, com base em uma descrição falada da imagem. Dada uma imagem e uma legenda de áudio, o modelo destacará em tempo real as regiões relevantes da imagem que está sendo descrita.

    Ao contrário das tecnologias de reconhecimento de voz atuais, o modelo não requer transcrições manuais e anotações dos exemplos em que foi treinado. Em vez de, aprende palavras diretamente de clipes de fala gravados e objetos em imagens brutas, e os associa uns aos outros.

    Atualmente, o modelo pode reconhecer apenas várias centenas de palavras e tipos de objetos diferentes. Mas os pesquisadores esperam que um dia sua técnica combinada de reconhecimento de objetos de fala possa economizar incontáveis ​​horas de trabalho manual e abrir novas portas no reconhecimento de fala e imagem.

    Sistemas de reconhecimento de voz, como Siri e Google Voice, por exemplo, requerem transcrições de muitos milhares de horas de gravações de fala. Usando esses dados, os sistemas aprendem a mapear sinais de voz com palavras específicas. Essa abordagem se torna especialmente problemática quando, dizer, novos termos entram em nosso léxico, e os sistemas devem ser retreinados.

    "Queríamos fazer o reconhecimento de voz de uma forma mais natural, aproveitando sinais e informações adicionais que os humanos têm o benefício de usar, mas os algoritmos de aprendizado de máquina normalmente não têm acesso. Tivemos a ideia de treinar um modelo de maneira semelhante a conduzir uma criança pelo mundo e narrar o que você está vendo, "diz David Harwath, Pesquisador do Laboratório de Ciência da Computação e Inteligência Artificial (CSAIL) e do Spoken Language Systems Group. Harwath é co-autor de um artigo que descreve o modelo apresentado na recente Conferência Européia sobre Visão Computacional.

    No papel, os pesquisadores demonstram seu modelo em uma imagem de uma jovem com cabelos loiros e olhos azuis, usando um vestido azul, com um farol branco com um telhado vermelho ao fundo. O modelo aprendeu a associar quais pixels na imagem correspondiam às palavras "garota, " "cabelo loiro, " "olhos azuis, " "vestido azul, "" farol branco, "e" telhado vermelho ". Quando uma legenda de áudio foi narrada, o modelo então destacou cada um desses objetos na imagem conforme foram descritos.

    Uma aplicação promissora é aprender traduções entre diferentes idiomas, sem necessidade de um anotador bilíngue. Dos estimados 7, 000 idiomas falados em todo o mundo, apenas 100 ou mais têm dados de transcrição suficientes para reconhecimento de voz. Considerar, Contudo, uma situação em que dois falantes de idiomas diferentes descrevem a mesma imagem. Se o modelo aprende sinais de fala da linguagem A que correspondem aos objetos na imagem, e aprende os sinais na linguagem B que correspondem a esses mesmos objetos, poderia assumir que esses dois sinais - e palavras correspondentes - são traduções um do outro.

    "Há potencial para um mecanismo do tipo Babel Fish, "Harwath diz, referindo-se ao fone de ouvido vivo fictício nos romances "Guia do Mochileiro das Galáxias" que traduzem diferentes idiomas para o usuário.

    Os co-autores do CSAIL são:a estudante de graduação Adria Recasens; o aluno visitante Didac Suris; o ex-pesquisador Galen Chuang; Antonio Torralba, um professor de engenharia elétrica e ciência da computação que também dirige o MIT-IBM Watson AI Lab; e o cientista pesquisador sênior James Glass, que lidera o Spoken Language Systems Group no CSAIL.

    Associações audiovisuais

    Este trabalho expande um modelo anterior desenvolvido por Harwath, Copo, e Torralba, que correlaciona a fala com grupos de imagens temáticas relacionadas. Na pesquisa anterior, eles colocam imagens de cenas de um banco de dados de classificação na plataforma de crowdsourcing Mechanical Turk. Eles então pediram que as pessoas descrevessem as imagens como se estivessem narrando para uma criança, por cerca de 10 segundos. Eles compilaram mais de 200, 000 pares de imagens e legendas de áudio, em centenas de categorias diferentes, como praias, Shopping, ruas da cidade, e quartos.

    Em seguida, eles projetaram um modelo que consiste em duas redes neurais convolucionais (CNNs) separadas. Um processa imagens, e um processa espectrogramas, uma representação visual dos sinais de áudio conforme eles variam ao longo do tempo. A camada mais alta do modelo calcula as saídas das duas redes e mapeia os padrões de fala com dados de imagem.

    Os pesquisadores iriam, por exemplo, alimente a legenda A do modelo e a imagem A, qual é correto. Então, eles o alimentariam com uma legenda B aleatória com a imagem A, que é um emparelhamento incorreto. Depois de comparar milhares de legendas erradas com a imagem A, o modelo aprende os sinais de fala correspondentes à imagem A, e associa esses sinais às palavras nas legendas. Conforme descrito em um estudo de 2016, o modelo aprendeu, por exemplo, para escolher o sinal correspondente à palavra "água, "e recuperar imagens com corpos d'água.

    "Mas não forneceu uma maneira de dizer, 'This is exact point in time that somebody said a specific word that refers to that specific patch of pixels, '" Harwath says.

    Making a matchmap

    In the new paper, the researchers modified the model to associate specific words with specific patches of pixels. The researchers trained the model on the same database, but with a new total of 400, 000 image-captions pairs. They held out 1, 000 random pairs for testing.

    In training, the model is similarly given correct and incorrect images and captions. Mas desta vez, the image-analyzing CNN divides the image into a grid of cells consisting of patches of pixels. The audio-analyzing CNN divides the spectrogram into segments of, dizer, one second to capture a word or two.

    With the correct image and caption pair, the model matches the first cell of the grid to the first segment of audio, then matches that same cell with the second segment of audio, and so on, all the way through each grid cell and across all time segments. For each cell and audio segment, it provides a similarity score, depending on how closely the signal corresponds to the object.

    The challenge is that, during training, the model doesn't have access to any true alignment information between the speech and the image. "The biggest contribution of the paper, " Harwath says, "is demonstrating that these cross-modal [audio and visual] alignments can be inferred automatically by simply teaching the network which images and captions belong together and which pairs don't."

    The authors dub this automatic-learning association between a spoken caption's waveform with the image pixels a "matchmap." After training on thousands of image-caption pairs, the network narrows down those alignments to specific words representing specific objects in that matchmap.

    "It's kind of like the Big Bang, where matter was really dispersed, but then coalesced into planets and stars, " Harwath says. "Predictions start dispersed everywhere but, as you go through training, they converge into an alignment that represents meaningful semantic groundings between spoken words and visual objects."

    Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.




    © Ciência https://pt.scienceaq.com