IA usa movimentos labiais para reconhecer falas em diferentes idiomas

Por Gustavo Minari • Editado por Luciana Zaramela | 30/11/2022 às 10:02

Compartilhe:

Pesquisadores do Imperial College London, na Inglaterra, desenvolveram um novo modelo de inteligência artificial (IA), capaz de reconhecer com precisão o conteúdo de uma fala em vários idiomas diferentes, com base apenas nos movimentos dos lábios dos usuários.

Segundos os cientistas, esse sistema de reconhecimento visual de fala (VSR, na sigla em inglês) utiliza algoritmos de aprendizado profundo para analisar o movimento labial, transformando as imagens captadas em conjuntos de caracteres conforme o idioma que está sendo falado.

“Embora alguns algoritmos tenham alcançado resultados promissores em tarefas VSR, eles foram treinados principalmente para detectar falas em inglês. Isso limita sua base de usuários em potencial a pessoas que vivem ou trabalham em contextos de língua inglesa”, explicou o professor e autor principal do estudo, Pingchuan Ma, ao site TechXplore.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Modelo poliglota

O treinamento do novo algoritmo foi feito com base em um modelo de aprendizado profundo, capaz de reconhecer movimentos labiais em diversos idiomas. Esse sistema utilizado pelos cientistas é semelhante ao introduzido por estudos anteriores, mas com um conjunto de dados muito maior.

Simplificando, esse modelo recebe imagens brutas e aprende automaticamente quais recursos deve extrair para concluir a tarefa de reconhecimento visual da fala. Essa abordagem amplifica a quantidade de informações necessárias para que o algoritmo consiga interpretar praticamente qualquer idioma.

“Os resultados mostram que é possível moldar nosso modelo independentemente da língua que está sendo falada. Nos testes iniciais, tivemos um desempenho muito bom, superando outros sistemas de VSR treinados com conjuntos de dados muito maiores”, acrescentou o professor Ma.

Falta fluência

Como já era esperado pelos pesquisadores, o novo algoritmo não teve um desempenho tão bom quanto os modelos de reconhecimento de fala em inglês, principalmente devido aos conjuntos menores de dados disponíveis para o treinamento da inteligência artificial.

Mesmo apresentando uma fluência reduzida em outros idiomas, os cientistas acreditam que esse é um passo importante para o desenvolvimento de modelos alternativos de VSR, capazes de reconhecer a fala a partir de movimentos labiais em outras línguas além do inglês.

Continua após a publicidade

“No futuro, poderemos combinar os modelos de VSR com sistemas de reconhecimento de fala baseados em áudio. Com isso, em um ambiente ruidoso, um modelo audiovisual deve confiar mais no fluxo visual, mas quando a região da boca estiver ocluída, ele dependerá mais do sistema sonoro, podendo se adaptar às condições do local”, disse o professor Pingchuan Ma.