Nvidia cria sistema de videoconferência com IA que usa 10 vezes menos banda

Por Wagner Wakka | 23/11/2020 às 14:30

Compartilhe:

Tudo sobre Nvidia

A Nvidia quer usar inteligência artificial na criação de um sistema que exige 10 vezes menos largura de banda para videoconferências. No lugar de usar compressores de dados, como nas chamadas atuais, a proposta da empresa é basicamente usar mapeamento do rosto para “recriar” movimentos do usuário com técnicas semelhantes às usadas para produzir deepfakes.

O mecanismo se chamada Maxine, uma tecnologia que se apropria da técnica chamada de GAN, siglaem inglês para rede contraditória generativa. O método consiste em duas IAs que se conversam: a primeira cria a imagem que será mostrada no final, com base em fotos e vídeo originais (chamados aqui de input); a segunda, verifica se o conteúdo final está próximo à realidade, ”pedindo” ajustes para a primeira IA caso seja necessário. Assim, com ciclos de criação e verificação, o sistema chega a uma imagem mais realista.

A técnica não é exatamente nova, mas é a primeira vez que se pretende usar o GAN para videoconferência. Atualmente, as chamadas de vídeo funcionam com o envio pela rede de dados comprimidos da imagem inteira. Com o Maxine, há o envio de uma imagem-base (input) e somente alguns dados de pontos-chave do rosto de quem está falando. Com isso, a outra pessoa na conversa recebe somente uma imagem inicial e o mapeamento de rosto, suficientes para recriar o vídeo em tempo real.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A Nvidia diz ser possível reduzir até um décimo da demanda de dados para uma imagem com qualidade, sem uma perda grande de definição. Isso porque não há o envio de dados do vídeo inteiro, mas somente o input e o mapeamento do rosto do usuário.

Se é preciso “recriar” a imagem do outro lado da conversa, isso demanda não mais largura de banda, mas um alto potencial gráfico. A Nvidia está projetando este sistema para ser compatível apenas com suas placas gráficas com núcleos Tensor. Ou seja, será preciso um computador com alto potencial gráfico para uma conversa com a tecnologia.

Segundo comunicado da empresa, a ideia não é vender a ferramenta para o usuário final, mas trabalhar com companhias que possam usar o sistema em seus próprios programas de videoconferência.

O Maxine ainda não só propõe uma redução drástica de demanda por rede, como permite outras utilidades. Por exemplo, caso uma pessoa esteja falando com rosto decentralizado, por IA, é possível recentralizar a imagem. Outra funcionalidade seria de colocar avatares que replicam os movimentos do emissor em tempo real.

A Nvidia está lançando um kit para desenvolvedores trabalharem em recursos com o Maxine.

Fonte: Nvidia