Sistema da Microsoft atinge novo recorde de reconhecimento de voz em conversas

Por Redação | 22 de Agosto de 2017 às 12h47

A Microsoft anunciou que seu sistema de reconhecimento de voz em conversas atingiu um novo recorde. Agora, ele erra apenas 5,1% do que ouve, contra 5,9% do ano passado. Essa marca o coloca no mesmo nível de uma transcrição feita por humanos depois de ouvir várias vezes o mesmo áudio.

Os pesquisadores do departamento de Inteligência Artificial e Pesquisa da Microsoft conseguiram o feito de um aumento de 12% no desempenho, se comparado aos resultados do ano anterior.

Isso foi possível graças a melhorias nos modelos neurais em rede de linguagem e acústica. Assim, o sistema de reconhecimento de voz passou a analisar conversas inteiras, podendo adaptar transcrições ao contexto e prever melhor frases e palavras — algo parecido com o que a nossa mente faz.

Os testes foram feitos em cima do corpus (nome técnico dado ao objeto de pesquisa) Switchboard, um conjunto de cerca de 2.400 gravações de conversas telefônicas que vem sendo usado em testes de sistemas computadorizados de reconhecimento de voz desde os anos 90.

“Atingir uma marca de 5,1% de erros no teste do Switchboard é um feito importante. No entanto, a comunidade de pesquisa ainda tem muitos desafios para encarar, como atingir níveis humanos de reconhecimento em ambientes barulhentos, usando microfones distantes e no entendimento de sotaques, idiomas e estilos de fala”, diz o comunicado da Microsoft.

“Mais do que isso, temos muito trabalho a fazer para ensinar computadores a não apenas transcrever o que é dito, mas também entender seu significado e intenção. Partir do reconhecimento para a compreensão é uma das maiores fronteiras dessa tecnologia.”

Fonte: Microsoft