• Home
  • Química
  • Astronomia
  • Energia
  • Natureza
  • Biologia
  • Física
  • Eletrônicos
  • Apresentando o serviço Cloud Text-to-Speech para desenvolvedores
    p Crédito CC0:domínio público

    p O Blog do Google Cloud Platform divulgou um anúncio na terça-feira, Apresentando Cloud Text-to-Speech. p Dan Aharon, Gerente de Produto, Cloud AI, disse, "Os desenvolvedores têm nos dito que gostariam de adicionar texto para fala em seus próprios aplicativos, então, hoje estamos trazendo essa tecnologia para o Google Cloud Platform com Cloud Text-to-Speech. "

    p Cloud Text-to-Speech tem tudo a ver com conversão de texto em fala com tecnologia de aprendizado de máquina.

    p Como uma API, disse que o site da Cloud Text-to-Speech, você pode criar interações com os usuários, entre aplicativos e dispositivos. O Cloud Text-to-Speech oferece suporte a aplicativos ou dispositivos que podem enviar uma solicitação REST ou gRPC. Isso inclui telefones, PCs, tablets e dispositivos IoT (por exemplo, carros, TVs, caixas de som).

    p Quais aplicativos de palavra real seriam aplicáveis? Os casos de uso incluem automação de call center e respostas interativas de dispositivos IoT.

    p Ele disse que o Cloud Text-to-Speech já está ajudando os clientes a oferecer uma experiência melhor aos usuários finais.

    p (Robert Hof de SiliconANGLE disse que "várias dezenas de usuários alfa têm tentado desde novembro.")

    p Os clientes incluem Cisco e Dolphin ONE. Este último integrou o Cloud Text-to-Speech em seus produtos; seus usuários podem criar "experiências naturais de call center".

    p O que é Google Cloud Platform? Este é um conjunto de serviços de computação em nuvem executado na mesma infraestrutura que o Google usa internamente para produtos como a Pesquisa Google e o YouTube. Agora, disse Frederic Lardinois em TechCrunch , "os desenvolvedores terão acesso ao mesmo mecanismo de texto para fala desenvolvido pela DeepMind que a própria empresa está usando atualmente para seu Assistente e para a direção do Google Maps."

    p Entre na arquitetura de rede neural WaveNet - que gera diretamente uma forma de onda de áudio bruta.

    p Aharon blogou, "Cloud Text-to-Speech também inclui uma seleção de vozes de alta fidelidade criadas usando WaveNet, um modelo generativo para áudio bruto criado pela DeepMind. WaveNet sintetiza vozes de som mais natural e, na média, produz áudio de fala que as pessoas preferem a outras tecnologias de conversão de texto em fala. "

    p A nuvem Text-to-Speech traz tecnologia de fala avançada; A pesquisa da Deep Mind em modelos de aprendizado de máquina para gerar fala que imita vozes humanas foi bem-sucedida. A fala soa natural, e sua equipe afirmou que reduziu a lacuna com o desempenho humano em mais de 50%.

    p Lardinois apontou o que torna a contribuição da WaveNet para a fala especial:

    p "Ao contrário dos esforços anteriores, O WaveNet não faz síntese de fala com base em uma coleção de fragmentos de fala curtos, que tende a criar o tipo de vozes robóticas com as quais você certamente está familiarizado. Em vez de, O WaveNet modela o áudio bruto usando um modelo de aprendizado de máquina para criar um discurso de som muito mais natural. "

    p Lardinois também forneceu uma breve história da WaveNet e como ela abordou a importante velocidade de resposta.

    p "O Google falou pela primeira vez sobre o WaveNet há cerca de um ano. Desde então, ela mudou essas ferramentas para uma nova infraestrutura que fica no topo das próprias unidades de processamento de tensor da empresa. Isso permite gerar essas formas de onda de áudio 1, 000 vezes mais rápido do que antes, portanto, a geração de um segundo de áudio agora leva apenas 50 milissegundos. "

    p Ele permite que os desenvolvedores sintetizem um discurso de som natural com 30 vozes. Além disso, está disponível em vários idiomas e variantes. O site disse que suporta 32 vozes em 12 idiomas e variantes.

    p (Este escritor experimentou em duas línguas. Pareceu excelente em ambas as tentativas.)

    p Frederic Lardinois em TechCrunch apontou que os desenvolvedores serão capazes de personalizar o argumento de venda, taxa de fala e ganho de volume dos arquivos MP3 ou WAV que o serviço irá gerar.

    p Aharon no blog forneceu um link para informações sobre preços e documentação. p © 2018 Tech Xplore




    © Ciência https://pt.scienceaq.com