Algoritmo imita o cérebro e deixa conversa com assistentes virtuais mais natural

Por Gustavo Minari • Editado por Douglas Ciriaco | 09/02/2022 às 09:04

Compartilhe:

Pesquisadores do Instituto Avançado de Ciência e Tecnologia do Japão (JAIST) desenvolveram um novo sistema que imita as atividades do cérebro para tornar a fala de assistentes virtuais mais natural. Os algoritmos são capazes de capturar a complexidade de uma conversa e transformá-la em sinais mais coerentes, como acontece entre seres humanos.

Eles conseguiram criar um dispositivo de inteligência artificial (IA) que emula essa função cerebral, utilizando um sistema avançado de busca correspondente para obter representações esparsas entre os sinais da fala que possuem o mínimo possível de coeficientes significativos.

“Em humanos, a periferia auditiva converte os dados contidos nos sinais da fala de entrada em padrões de atividade neural que o cérebro é capaz de identificar. Nós usamos princípios psicoacústicos, como uma escala de largura de banda equivalente e efeitos de mascaramento para garantir que as representações auditivas fossem mais parecidas com a nossa”, explica o professor de computação Masashi Unoki, autor principal do estudo.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Copiando o cérebro

Para testar a capacidade do modelo em entender comandos de voz e gerar uma resposta mais compreensível e natural, os cientistas compararam a qualidade de reconstrução do sinal e as estruturas das representações auditivas com outros métodos já usados em sistemas de reconhecimento de fala.

Eles reconstruíram 630 amostras de vozes pronunciadas por diversas pessoas diferentes, ressintetizando os sinais com modelos de classificação dentro de escalas de pontuação conhecidas como PEMO-Q e PESQ — medidas objetivas que avaliam a qualidade do som emitido.

"Assim como no cérebro humano, a eficácia de uma representação auditiva pode ser avaliada em três aspectos distintos: a qualidade dos sinais de fala ressintetizados, o número de elementos diferentes de zero e a capacidade de representar estruturas perceptivas", acrescenta Unoki.

Voz natural

Ao utilizar os algoritmos para emular padrões cerebrais, os pesquisadores descobriram que os sinais ressintetizados são comparáveis aos originais, tornando a comunicação digital muito mais próxima de uma conversa natural observada na interação entre dois seres humanos.

Continua após a publicidade

Utilizando um experimento de correspondência de padrões para determinar se as representações auditivas poderiam ser combinadas com frases faladas, os cientistas perceberam que o sistema conseguia capturar as estruturas das vozes com mais precisão, tornando o diálogo mais coerente e menos robotizado.

“O modelo desenvolvido em nosso estudo pode ajudar bastante a transmitir qualidades humanas, como pronúncias e sotaques diferentes, aos nossos assistentes de voz, tornando nossas interações digitais não apenas mais convenientes, mas também psicologicamente mais satisfatórias”, encerra o professor Masashi Unoki.

Fonte: Japan Advanced Institute of Science and Technology