O que é deepfake e como ela funciona?

Por Wagner Wakka | 24 de Março de 2020 às 08h45
Wired

No começo de 2019 começaram a surgir na internet vídeos de celebridades, como Nicolas Cage, pronunciado no lugar do presidente dos Estados Unidos, Donald Trump. A verdade é que nem o astro, nem outros atores tomaram o principal púlpito dos EUA. Todas as imagens divulgadas foram criadas por deepfake.

O termo faz referência a qualquer modificação em vídeo, foto ou outras imagens (como GIFs) que tenham sido criadas para parecer realista, mas feita com inteligência artificial. No fim, o objetivo é que a modificação seja tão imperceptível que pareça real.

A palavra vem da mistura dos termos “deep learning” e “fake”. Ou seja, uma imagem falsa criada com um sistema de inteligência artificial usando deep learning.

Fazer vídeos fictícios como que se fossem verdadeiros não é bem uma invenção atual, uma vez que efeitos visuais computadorizados já existem no cinema desde o século passado. A questão é que fazer uma cena em computação gráfica em um filme ou jogo de videogame era extremamente caro.

A novidade do deepfake é que as pessoas podem criar essas manipulações realistas só usando computadores e internet em casa. “Com métodos baseados em inteligência artificial para criar deepfakes se tornando altamente sofisticados e acessíveis, as deepfakes estão também elevando a necessidade de políticas, tecnologias e questões legais”, explica John Vilasenor, pesquisadores do centro de inovações tecnológicas da Brookings Institution, organização que pesquisa o tema.

Como ela funciona? 

Conforme o próprio nome indica, a tecnologia é baseada em deep learning. Essa é uma subclassificação da inteligência artificial para definir algoritmos que podem reconhecer padrões com base em um banco de dados.

No caso das deepfakes, para fazer um vídeo falso, por exemplo, de Mark Zuckerberg, é preciso alimentar o sistema com fotos e vídeos em que o CEO do Facebook aparece. Quanto mais material, melhor tende a ser o resultado.

A inteligência artificial vai reconhecer padrões, como movimentos, trações do rosto, voz e outras questões comportamentais de Zuckerberg. Em suma, aprender como ele se comporta.

Depois que o sistema estiver municiado com banco de dados e analisado o conteúdo, ele já será capaz de replicar movimentos e fala parecidos com a realidade. Nesta etapa, o mecanismo usa uma técnica chamada rede contraditória generativa (GAN, na sigla em inglês).

A técnica consiste em criar várias imagens com os bancos de dados e verificar se estão de acordo com o esperado. Caso o sistema reconheça um erro, ele mesmo já arruma a imperfeição e monta uma nova imagem. O ciclo é repetido inúmeras vezes para refinar a produção

Após várias repetições de criação e verificação, o sistema chega ao vídeo ideal, o mais próximo da realidade possível.

Quais as ferramentas mais famosas?

Desde o começo de 2019 começaram a surgir e se popularizar várias ferramentas de fácil acesso para criação de deepfakes. Uma das mais conhecidas foi o ZAO, um app chinês para iOS que coloca o rosto do usuário em cenas de filmes e séries em questão de segundos.

Como se trata de uma brincadeira, o programa limita as cenas nas quais você pode colocar seu rosto. A ideia é não permitir a criação de notícias falsas com a aplicação.

De forma muito simples, basta tirar uma selfie e informar para o programa qual rosto gostaria de substituir em uma cena. O resultado é uma imagem bastante natural.

Já para quem quer algo mais sofisticado - e caro - há o FSGAN. Trata-se de uma ferramenta de inteligência artificial que não só reproduz os trejeitos do rosto da fonte, mas também a voz.

O programa utiliza técnicas de GAN, mas também reconhece elementos do rosto das pessoas nos vídeos e fotos. Assim, consegue recriar cenas de atores e políticos em funções nas quais nunca estiveram.

O projeto foi criado por Yuval Nirkin e está disponível na Open University of Israel. Segundo os pesquisadores, para fazer as imagens é preciso um hadware parrudo. Eles usaram 8 placas de vídeo Nvidia Tesla v100 para fazer os ciclos de GAN e recriar as imagens apresentadas acima.

Outra opção, mais barata e que também oferece a criação de vídeos, é a Deepfakes web β. O serviço funciona online e permite substituir rostos de uma pessoa em vídeos dos quais ela não participa. A plataforma é paga e custa US$ 2 (cerca de R$ 10) por uma hora de uso. Segundo o site oficial do serviço, é preciso quase quatro horas para treinar o sistema e mais 30 minutos para criar o vídeo. Ou seja, uma produção custaria aproximadamente R$ 90.

A cobrança acontece pois todo processamento é feito em nuvem. “Deep learning exige muito poder de processamento de GPU, o que é bem caro na nuvem. Obrigado por entender nossos preços”, diz a empresa.

Questões legais

O Canaltech reconhece que há serviços de deepfake sendo usados para propagação de notícias falses e desinformação. A nossa reportagem já produziu um especial com as principais implicações da tecnologia em política e questões sociais. Você pode lê-las a seguir.

Fonte: FSGAN, Brookgins Institute

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.