Google cria sistema de reconhecimento de voz que dispensa conexão com a internet

Por Redação | 11 de Março de 2016 às 17h55

Atualmente, quando você diz “OK, Google” para o seu gadget com Android a fim de ditar algum comando para ser executado por ele, o dispositivo se conecta com uma central de dados capaz de interpretar a informação que acabou de receber. Porém, no que depender do Google, o futuro do comando de voz será muito mais leve, rápido e, o mais interessante de tudo, local.

Uma equipe de pesquisadores da empresa revelou em um artigo científico o desenvolvendo de um sistema de reconhecimento de voz que dispensa qualquer tipo de conexão com a internet. Além disso, ele se torna muito mais leve e também mais ágil do que o assistente do Google Now é agora — também pudera, afinal o Now precisa checar informações em um servidor e, convenhamos, faz isso de maneira ágil. Com tudo sendo verificado localmente no dispositivo, o resultado deixa de depender da velocidade de conexão e passa a ficar na conta da velocidade de processamento dos dados do aparelho e do recurso de voz.

O novo sistema já está em fase de testes e atualmente ocupa 20,3 MB dentro de um LG Nexus 5. Neste aparelho, que conta com 2 GB de RAM e um processador de 2,26 GHz, a taxa de acerto do recurso de reconhecimento de voz local foi de 86,5% para o cumprimento de tarefas. Apesar de uma taxa de erro considerada alta (13,5%), o sistema está em fase de testes e apresenta um desempenho relativamente bom.

Durante os testes, o novo recurso foi capaz de realizar uma série de tarefas de forma satisfatória, como responder da maneira correta ao comando “Envie um e-mail para Darnica Cumberland: nós podemos remarcar?”, transcrevendo o que foi ditado e executando a ação quase que em tempo real. Para funcionar de maneira precisa, este método precisa estar integrado às informações pessoais do usuário.

Técnicas avanaçadas

Para obter sucesso, o método utiliza técnicas de aprendizado de máquina, como memória de curto e longo prazo (LSTM, na sigla em inglês) e redes neurais recorrentes (RNNs), além de ser preparado com técnicas de classificação temporal conexionista (CTC) e de segmento mínimo do risco de Bayes (sMBR). Para abastecer a sua base de dados, os pesquisadores extraíram mais de 3 milhões de enunciados do tráfego de pesquisa de voz do Google, totalizando mais de 2 mil horas de gravações. Eles ainda utilizaram amostras sonoras obtidas em vídeos do YouTube.

Fonte: Arxiv.org

Fique por dentro do mundo da tecnologia!

Inscreva-se em nossa newsletter e receba diariamente as notícias por e-mail.