O sistema de computador transcreve palavras que os usuários falam silenciosamente
p Arnav Kapur, pesquisador do grupo Fluid Interfaces no MIT Media Lab, demonstra o projeto AlterEgo. Crédito:Lorrie Lejeune / MIT
p Os pesquisadores do MIT desenvolveram uma interface de computador que pode transcrever palavras que o usuário verbaliza internamente, mas na verdade não fala em voz alta. p O sistema consiste em um dispositivo vestível e um sistema de computação associado. Os eletrodos do dispositivo captam sinais neuromusculares na mandíbula e no rosto que são acionados por verbalizações internas - dizer palavras "em sua cabeça" - mas são indetectáveis ao olho humano. Os sinais são enviados a um sistema de aprendizado de máquina que foi treinado para correlacionar sinais específicos com palavras específicas.
p O dispositivo também inclui um par de fones de ouvido de condução óssea, que transmitem vibrações através dos ossos do rosto até o ouvido interno. Porque eles não obstruem o canal auditivo, os fones de ouvido permitem que o sistema transmita informações ao usuário sem interromper a conversa ou interferir de outra forma na experiência auditiva do usuário.
p O dispositivo é, portanto, parte de um sistema de computação silenciosa completo que permite ao usuário indetectavelmente posar e receber respostas para difíceis problemas computacionais. Em um dos experimentos dos pesquisadores, por exemplo, os sujeitos usaram o sistema para relatar silenciosamente os movimentos dos oponentes em um jogo de xadrez e, da mesma forma, receber silenciosamente as respostas recomendadas pelo computador.
p "A motivação para isso foi construir um dispositivo de IA - um dispositivo de aumento de inteligência, "diz Arnav Kapur, um estudante de pós-graduação no MIT Media Lab, que liderou o desenvolvimento do novo sistema. "Nossa ideia era:poderíamos ter uma plataforma de computação mais interna, que funde humano e máquina de algumas maneiras e parece uma extensão interna de nossa própria cognição? "
p "Basicamente, não podemos viver sem nossos celulares, nossos dispositivos digitais, "diz Pattie Maes, professor de artes e ciências da mídia e orientador da tese de Kapur. "Mas no momento, o uso desses dispositivos é muito perturbador. Se eu quiser pesquisar algo que seja relevante para uma conversa que estou tendo, Tenho que encontrar meu telefone e digitar a senha e abrir um aplicativo e digitar alguma palavra-chave de pesquisa, e tudo isso requer que eu mude completamente a atenção do meu ambiente e das pessoas com quem estou para o próprio telefone. Então, meus alunos e eu temos experimentado por muito tempo novos fatores de forma e novos tipos de experiência que permitem que as pessoas ainda se beneficiem de todo o conhecimento e serviços maravilhosos que esses dispositivos nos oferecem, mas faça-o de uma forma que os deixe permanecer no presente. "
p Os pesquisadores descrevem seu dispositivo em um artigo apresentado na conferência ACM Intelligent User Interface da Association for Computing Machinery. Kapur é o primeiro autor do artigo, Maes é a autora sênior, e eles se juntaram a Shreyas Kapur, um curso de graduação em engenharia elétrica e ciência da computação.
p
Sinais sutis
p A ideia de que verbalizações internas têm correlações físicas existe desde o século 19, e foi investigado seriamente na década de 1950. Um dos objetivos do movimento de leitura dinâmica da década de 1960 era eliminar a verbalização interna, ou "subvocalização, "como é conhecido.
p Mas a subvocalização como uma interface de computador é amplamente inexplorada. O primeiro passo dos pesquisadores foi determinar quais locais do rosto são as fontes dos sinais neuromusculares mais confiáveis. Então, eles conduziram experimentos nos quais os mesmos sujeitos foram solicitados a subvocalizar a mesma série de palavras quatro vezes, com uma matriz de 16 eletrodos em diferentes localizações faciais de cada vez.
Crédito:Massachusetts Institute of Technology p Os pesquisadores escreveram um código para analisar os dados resultantes e descobriram que os sinais de sete localizações específicas de eletrodos eram consistentemente capazes de distinguir palavras subvocalizadas. No artigo da conferência, os pesquisadores relatam um protótipo de uma interface de fala silenciosa vestível, que envolve a nuca como um fone de ouvido e tem apêndices curvos como tentáculos que tocam o rosto em sete locais de cada lado da boca e ao longo das mandíbulas.
p Mas em experimentos atuais, os pesquisadores estão obtendo resultados comparáveis usando apenas quatro eletrodos ao longo de uma mandíbula, o que deve levar a um dispositivo vestível menos intrusivo.
p Depois de selecionar os locais dos eletrodos, os pesquisadores começaram a coletar dados em algumas tarefas computacionais com vocabulários limitados - cerca de 20 palavras cada. Um era aritmética, em que o usuário subvocalizaria grandes problemas de adição ou multiplicação; outro foi o aplicativo de xadrez, em que o usuário relataria movimentos usando o sistema de numeração de xadrez padrão.
p Então, para cada aplicativo, eles usaram uma rede neural para encontrar correlações entre sinais neuromusculares específicos e palavras específicas. Como a maioria das redes neurais, o que os pesquisadores usaram é organizado em camadas de nós de processamento simples, cada um dos quais está conectado a vários nós nas camadas acima e abaixo. Os dados são alimentados na camada inferior, cujos nós o processam e os passam para a próxima camada, cujos nós o processam e os passam para a próxima camada, e assim por diante. A saída dos rendimentos da camada final é o resultado de alguma tarefa de classificação.
p A configuração básica do sistema dos pesquisadores inclui uma rede neural treinada para identificar palavras subvocalizadas de sinais neuromusculares, mas pode ser personalizado para um usuário específico por meio de um processo que retreina apenas as duas últimas camadas.
p
Assuntos práticos
p Usando a interface vestível do protótipo, os pesquisadores realizaram um estudo de usabilidade no qual 10 indivíduos passaram cerca de 15 minutos cada um personalizando o aplicativo aritmético para sua própria neurofisiologia, em seguida, passou outros 90 minutos usando-o para executar cálculos. Nesse estudo, o sistema tinha uma precisão média de transcrição de cerca de 92 por cento.
p Mas, Kapur diz, o desempenho do sistema deve melhorar com mais dados de treinamento, que podem ser coletados durante seu uso normal. Embora ele não tenha analisado os números, ele estima que o sistema mais bem treinado que usa para demonstrações tem uma taxa de precisão maior do que a relatada no estudo de usabilidade.
p Em trabalho contínuo, os pesquisadores estão coletando uma grande quantidade de dados em conversas mais elaboradas, na esperança de construir aplicativos com vocabulários muito mais expansivos. "Estamos no meio da coleta de dados, e os resultados parecem bons, "Kapur diz." Acho que um dia teremos uma conversa completa. "
p "Acho que eles estão vendendo um pouco abaixo do que considero um potencial real para o trabalho, "diz Thad Starner, professor da Faculdade de Computação da Georgia Tech. "Gostar, dizer, controlando os aviões na pista do aeroporto Hartsfield aqui em Atlanta. Você tem barulho de jato ao seu redor, você está usando essas coisas grandes de proteção de ouvido - não seria ótimo se comunicar por voz em um ambiente onde normalmente não seria capaz? Você pode imaginar todas essas situações em que tem um ambiente de alto ruído, como a cabine de comando de um porta-aviões, ou até mesmo lugares com muitas máquinas, como uma usina de energia ou uma impressora. Este é um sistema que faria sentido, especialmente porque, muitas vezes, nesses tipos ou situações, as pessoas já estão usando equipamentos de proteção. Por exemplo, se você é um piloto de caça, ou se você é um bombeiro, você já está usando essas máscaras. "
p "A outra coisa em que isso é extremamente útil são as operações especiais, "Starner acrescenta." Há muitos lugares onde não é um ambiente barulhento, mas silencioso. Muito tempo, o pessoal de operações especiais faz gestos com as mãos, mas você nem sempre pode ver isso. Não seria ótimo ter um discurso silencioso para a comunicação entre essas pessoas? O último são pessoas com deficiência onde não conseguem vocalizar normalmente. Por exemplo, Roger Ebert não conseguia mais falar porque perdeu a mandíbula para o câncer. Ele poderia fazer esse tipo de discurso silencioso e, em seguida, ter um sintetizador que falaria as palavras? " p
Esta história foi republicada por cortesia do MIT News (web.mit.edu/newsoffice/), um site popular que cobre notícias sobre pesquisas do MIT, inovação e ensino.