Nvidia cria sistema de videoconferência com IA que usa 10 vezes menos banda

Por Wagner Wakka | 23 de Novembro de 2020 às 14h30
Divulgação/Nvidia
Tudo sobre

Nvidia

Saiba tudo sobre Nvidia

Ver mais

A Nvidia quer usar inteligência artificial na criação de um sistema que exige 10 vezes menos largura de banda para videoconferências. No lugar de usar compressores de dados, como nas chamadas atuais, a proposta da empresa é basicamente usar mapeamento do rosto para “recriar” movimentos do usuário com técnicas semelhantes às usadas para produzir deepfakes.

O mecanismo se chamada Maxine, uma tecnologia que se apropria da técnica chamada de GAN, siglaem inglês para rede contraditória generativa. O método consiste em duas IAs que se conversam: a primeira cria a imagem que será mostrada no final, com base em fotos e vídeo originais (chamados aqui de input); a segunda, verifica se o conteúdo final está próximo à realidade, ”pedindo” ajustes para a primeira IA caso seja necessário. Assim, com ciclos de criação e verificação, o sistema chega a uma imagem mais realista.

A técnica não é exatamente nova, mas é a primeira vez que se pretende usar o GAN para videoconferência. Atualmente, as chamadas de vídeo funcionam com o envio pela rede de dados comprimidos da imagem inteira. Com o Maxine, há o envio de uma imagem-base (input) e somente alguns dados de pontos-chave do rosto de quem está falando. Com isso, a outra pessoa na conversa recebe somente uma imagem inicial e o mapeamento de rosto, suficientes para recriar o vídeo em tempo real.

A Nvidia diz ser possível reduzir até um décimo da demanda de dados para uma imagem com qualidade, sem uma perda grande de definição. Isso porque não há o envio de dados do vídeo inteiro, mas somente o input e o mapeamento do rosto do usuário.

Se é preciso “recriar” a imagem do outro lado da conversa, isso demanda não mais largura de banda, mas um alto potencial gráfico. A Nvidia está projetando este sistema para ser compatível apenas com suas placas gráficas com núcleos Tensor. Ou seja, será preciso um computador com alto potencial gráfico para uma conversa com a tecnologia.

Segundo comunicado da empresa, a ideia não é vender a ferramenta para o usuário final, mas trabalhar com companhias que possam usar o sistema em seus próprios programas de videoconferência.

O Maxine ainda não só propõe uma redução drástica de demanda por rede, como permite outras utilidades. Por exemplo, caso uma pessoa esteja falando com rosto decentralizado, por IA, é possível recentralizar a imagem. Outra funcionalidade seria de colocar avatares que replicam os movimentos do emissor em tempo real.

Sistema pode realinhar rosto de uma pessoa que está olhando para fora da tela (Foto; Divulgação/Nvidia)

A Nvidia está lançando um kit para desenvolvedores trabalharem em recursos com o Maxine.

Fonte: Nvidia

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.