Crédito CC0:domínio público
Uma nova pesquisa da Universidade de Waterloo encontrou uma maneira de melhorar os recursos de compreensão de consulta de voz de plataformas de entretenimento doméstico.
A pesquisa, em colaboração com a Universidade de Maryland e o Comcast Applied AI Research Lab, usa tecnologia de inteligência artificial (IA) para obter as interações mais naturais baseadas na fala com TVs até o momento.
"Hoje, nós nos acostumamos a falar com agentes inteligentes que fazem nossas licitações - de Siri em um telefone celular a Alexa em casa. Por que não deveríamos fazer o mesmo com as TVs? ", Perguntou Jimmy Lin, professor da University of Waterloo e David R. Cheriton Chair na David R. Cheriton School of Computer Science.
"O Xfinity X1 da Comcast pretende fazer exatamente isso - a plataforma vem com um 'controle remoto de voz' que aceita consultas faladas. Seu desejo é o comando - diga à sua TV para mudar de canal, pergunte sobre filmes infantis gratuitos, e até mesmo sobre a previsão do tempo. "
Ao lidar com o complexo problema de compreensão de consultas de voz, os pesquisadores tiveram a ideia de tirar proveito da mais recente tecnologia de IA - uma técnica conhecida como redes neurais recorrentes hierárquicas - para melhor modelar o contexto e melhorar a precisão do sistema.
Em janeiro de 2018, o novo modelo de rede neural dos pesquisadores foi implantado na produção para responder a consultas de usuários reais. Ao contrário do sistema anterior, que foi confundido por aproximadamente 8% das consultas, o novo modelo lida com a maioria das consultas muito complicadas de forma adequada, melhorando muito a experiência do usuário.
"Se um espectador perguntar sobre 'Chicago Fire, 'que se refere tanto a uma série dramática quanto a um time de futebol, o sistema é capaz de decifrar o que você realmente quer, "disse Lin." O que há de especial nessa abordagem é que aproveitamos o contexto - como programas assistidos anteriormente e canais favoritos - para personalizar os resultados, aumentando assim a precisão. "
Os pesquisadores começaram a trabalhar no desenvolvimento de um modelo ainda mais rico. A intuição é que, ao analisar as consultas de múltiplas perspectivas, o sistema pode entender melhor o que o visualizador está dizendo.
O papel, Multi-Task Learning with Neural Networks for Voice Query Understanding Entertainment Platform, foi apresentado na 24ª Conferência Internacional ACM SIGKDD sobre Descoberta de Conhecimento e Mineração de Dados realizada recentemente no Reino Unido. A pesquisa foi realizada por Jinfeng Rao, um Ph.D. graduado pela Universidade de Maryland, seu conselheiro Lin, e mentor Ferhan Ture, um pesquisador do Comcast Applied AI Research Lab.