Economize: canal oficial do CT Ofertas no WhatsApp Entrar

IA do Google transforma fotos em vídeos de pessoas falando

Por Bruno De Blasi | Editado por Douglas Ciriaco | 25 de Março de 2024 às 09h20

Link copiado!

Tudo sobre Google

Já pensou em um sistema de inteligência artificial capaz de transformar uma foto e uma amostra de voz em um vídeo de alguém falando? Essa é a proposta de um grupo de pesquisadores do Google, que desenvolveram o modelo VLOGGER para facilitar o desenvolvimento e edição de conteúdos de discursos e outros tipos de conteúdos com um apresentador em destaque.

Segundo os pesquisadores, essa tecnologia pode ser útil tanto para editar vídeos já gravados quanto para traduzir falas para outros idiomas sem a necessidade de regravá-los. Por outro lado, o uso incorreto da ferramenta pode acarretar em riscos, como disseminação de desinformação e golpes financeiros com deepfakes.

Nova IA do Google aposta em vídeos

Continua após a publicidade

O VLOGGER foi desenvolvido pelos cientistas Enric Corona, Andrei Zanfir, Eduard Gabriel Bazavan, Nikos Kolotouros, Thiemo Alldieck e Cristian Sminschisescu, pesquisadores do Google Research (uma divisão de pesquisas da empresa). Na apresentação, o grupo explica que o modelo é um “método para geração de vídeo humano falante” baseado “no sucesso de modelos recentes de difusão generativa”.

Para isso, o sistema utiliza uma abordagem de dois estágios para modelar os vídeos, a começar pela inserção da amostra de voz e imagem. Depois, o modelo processa os arquivos para, na sequência, entregar o conteúdo de uma pessoa falando normalmente.

O grande diferencial da tecnologia é justamente entregar esses resultados sem precisar de um treinamento individual para cada pessoa — ou seja, não depende de amostras de fotos do personagem para gerar os vídeos. O sistema também ajusta a disposição de outras partes do corpo durante a fala, sem se limitar ao rosto, para ficar mais natural e empático.

E tudo isso é notado nas demonstrações apresentadas pelo grupo, que criou exemplos com diversas etnias para atestar a diversidade do modelo. Nos vídeos, ainda é visível que há uma manipulação, mas o espectador mais desatento pode não perceber que se trata de uma edição com IA, por exemplo.

Continua após a publicidade

Outro lado da moeda

Apesar do grande avanço, Stan Lee já nos avisou em uma de suas maiores obras, o Homem-Aranha: “com grandes poderes vêm grandes responsabilidades”. Especialmente ao considerar os riscos impostos pelos golpes causados com deepfakes, que já causaram um prejuízo milionário a uma empresa devido a uma chamada de vídeo falsa, por exemplo.

Por enquanto, a tecnologia não está disponível publicamente e pode ser que jamais seja liberada a todos de maneira irrestrita, sem a intermediação do Google. Por outro lado, a estreia do modelo é mais um indicador de que as ferramentas para edição de vídeos com IA se aprimoram cada vez mais, especialmente após a estreia do Sora, da OpenAI.