Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

Novo sistema de leitura labial transcreve falas a partir da câmera do celular

Por| Editado por Douglas Ciriaco | 21 de Março de 2021 às 10h00

Link copiado!

Andrés Rodríguez/Pixabay
Andrés Rodríguez/Pixabay

Cientistas de um laboratório focado no desenvolvimento de ferramentas de acessibilidade para computadores desenvolveram um sistema para leitura labial. O LipType, como foi nomeado, se apoia nas câmeras de aparelhos e no tratamento de algoritmos para identificar falas e transcrevê-las — e as aplicações vão além de enviar mensagens.

A criação do laboratório Human-Computer Interaction Group não é inédita, mas é uma das mais avançadas ferramentas de leitura labial por visão computacional já vistas. Originalmente pensadas como um recurso de acessibilidade, as aplicações do LipType se estendem como um mecanismo de privacidade e até segurança em situações de perigo específicas.

“Há vários erros nas transcrições, especialmente em lugares muito barulhentos, ou para pessoas com problemas de dicção ou não falantes nativos [de um idioma]”, comenta o professor Sabbir Arif, que comandou o projeto. “Contudo, LipType funciona para todos: para pessoas que precisam enviar uma mensagem privada num ambiente público ou numa reunião, e com o LipType se poderia 'dizer' as palavras sem emitir sons”, explicou.

Continua após a publicidade

Acompanhado do hardware contido nas câmeras, o algoritmo trabalha arduamente para identificar cada uma das palavras “pronunciadas” pelo usuário. Para isso, os pesquisadores precisaram incluir vários filtros para adaptar o sistema às mais variadas condições de luz e corretores de erros baseados em modelos da linguagem.

Os resultados se mostraram promissores. Os próprios pesquisadores reconhecem que as melhorias do LipType na leitura labial são significativas e podem trazer mudanças reais no cotidiano de pessoas com problemas na fala. Essa avaliação, inclusive, foi reforçada por uma pesquisa conduzida pelo laboratório entre com portadores e não portadoras de deficiências físicas e a avaliação geral foi positiva: a maioria afirma que usaria a ferramenta no dia a dia.

“LipType analisou falas 58% mais rápido e com 53% mais precisão que qualquer outra solução em vários cenários reais, incluindo em condições de baixa luz e ambientes cheios”, comentou o estudante de graduação em ciência da computação e engenharia Laxmi Pandey.

Continua após a publicidade

Aplicações variadas

O laboratório sugere que o LipType pode ser aplicado além da transcrição de falas para a elaboração de mensagens de texto, mas também em caixas eletrônicos ou quiosques inteligentes, que são plataformas presentes no cotidiano de muitas pessoas — portadoras ou não de deficiência física ou com problemas de dicção.

Se equipada nesses ambientes públicos, a ferramenta de leitura labial também pode ser utilizada como um meio de segurança. Em cenários onde uma pessoa está sendo vigiada e tem a oportunidade de ser enquadrada por uma dessas câmeras com LipType, pedidos de socorro falados podem ser impossíveis, mas sinalizar que está em situação de perigo por movimentos labiais pode ser uma alternativa segura.

Continua após a publicidade

O monitoramento de câmeras para a investigação de crimes também pode ser aprimorado pelo LipType. Quando não há a combinação de sistemas de captação de som, a leitura labial pode ser importante para recuperar informações cruciais dos registros de segurança.

Arif se mostra consciente das inúmeras aplicações que um sistema eficiente e preciso de leitura labial poderia ter na sociedade. Por isso, afirma que praticam a filosofia “opções para todos”, em que prometem alternativas para aplicações variadas.

Não há previsão para um lançamento comercial das ferramentas, mas se os avanços continuarem, não será difícil encontrar projetos oriundos do LipType em produtos ou sistemas espalhados pelo mundo nos próximos anos.

Fonte: TechXplore