Um exemplo de como uma Amazon Alexa pode determinar a localização de uma pessoa dentro de uma casa. Crédito:Romit Roy Chowdhury
Alto-falantes inteligentes - pense, uma Amazon Alexa ou um Google Home - oferece uma ampla variedade de recursos para ajudar a liberar nosso tempo e nossas mãos. Podemos ouvir as notícias da manhã enquanto escovamos os dentes, peça um boletim meteorológico enquanto escolhe um casaco, e ajuste um cronômetro para o forno enquanto manuseia duas panelas quentes de uma vez. De acordo com Voicebot.ai, Alexa está apoiando mais de 100, 000 habilidades em todo o mundo, mas uma tarefa que ele não domina é determinar a localização do usuário na casa.
Esta tarefa de localização foi o foco de um artigo publicado recentemente pela equipe de pesquisa da Universidade de Illinois em Urbana-Champaign, "Localização de voz usando reflexos de parede próximos." O trabalho foi aceito na 26ª Conferência Internacional Anual sobre Computação Móvel e Redes. No papel, a equipe - liderada pelo aluno de graduação do Laboratório de Ciências Coordenado Sheng Shen - explora o desenvolvimento do VoLoc, um sistema que usa a matriz de microfone no Alexa, bem como ecos da voz humana, para inferir a localização do usuário dentro de casa.
Saber a localização de um usuário em uma casa pode ajudar um dispositivo inteligente a oferecer melhor suporte às habilidades disponíveis atualmente. Por exemplo, depois de receber comandos como "acender a luz" ou "aumentar a temperatura, "Alexa atualmente tem que adivinhar qual luz e sala estão no centro do comando. Usando uma técnica conhecida como triangulação reversa, Shen e o consultor Romit Roy Choudhury estão se aproximando da localização de voz.
"Aplicar esta técnica a alto-falantes inteligentes envolve alguns desafios, "compartilhou Shen, estudante de engenharia elétrica e da computação (ECE). "Primeiro, devemos separar a voz humana direta e cada eco da sala da gravação do microfone. Então, devemos calcular com precisão a direção de cada um desses ecos. Ambos os desafios são difíceis porque os microfones simplesmente gravam uma mistura de todos os sons. "
O VoLoc aborda esses obstáculos por meio de um "algoritmo de alinhamento e cancelamento" que isola iterativamente as direções de cada um dos sinais de voz que chegam, e deles, reverso triangula a localização do usuário. Alguns aspectos da geometria da sala são aprendidos espontaneamente, o que ajuda na triangulação. Embora seja um avanço importante, Shen e Roy Choudhury planejam expandir a pesquisa para mais aplicações em breve.
"Nossa próxima etapa imediata é construir o quadro de referência do locutor inteligente, "Shen explicou." Isso pode significar sobrepor os locais, conforme fornecido pelo VoLoc, em uma planta baixa para determinar se o usuário está na lavanderia. Alternativamente, se o alto-falante inteligente captar os sons produzidos pela lavadora e secadora no mesmo local que o comando de voz, pode chegar à mesma conclusão. "
As possibilidades dessa função são aparentemente infinitas e podem melhorar as habilidades atuais de Alexa.
"As implicações são importantes, "disse Roy Choudhury, um professor CSL e W.J. "Jerry" Sanders III - Advanced Micro Devices, Inc. Acadêmico em Engenharia Elétrica e de Computação. "A localização pode ajudar Alexa a melhorar o reconhecimento de voz, uma vez que diferentes vocabulários e modelos de fala podem ser carregados. Por exemplo, um comando como 'adicionar urgente à lista de compras' pode não fazer sentido, mas se Alexa souber que o usuário está na lavanderia, Alexa pode inferir que o usuário realmente disse 'adicione detergente à lista de compras'. "
Shen e Roy Choudhury reconhecem que a tecnologia pode prejudicar ainda mais a privacidade, permitindo que empresas como a Amazon e o Google examinem mais de perto nossas casas e nosso dia-a-dia. Contudo, eles também acreditam que os benefícios são vitais, já que os dispositivos inteligentes com reconhecimento de contexto podem se tornar tecnologias de suporte cruciais para uma vida independente de idosos e muito mais.
Por exemplo, a tecnologia pode ser usada para lembrar um avô que vive de forma independente de tomar o medicamento quando ele ou ela passar no armário de remédios, ou para lembrar uma criança de fechar a torneira quando sair correndo do banheiro com a torneira ainda aberta.
"É mais do que interpretar comandos de voz, "disse Shen." Ele fornece um par extra de olhos quando se trata de cuidar de seus entes queridos também. "