Esta pessoa não existe: conheça o curioso mundo dos rostos criados por IA

Por Wagner Wakka | Editado por Douglas Ciriaco | 12 de Junho de 2021 às 17h00
Twitter/@wedonotexisthere

A foto de capa desta reportagem representa uma mulher chamada Emilia Fyodorov, de 24 anos, moradora de Saanich, no Canadá. Com cabelos curtos, sorriso enigmático como o de Monalisa, Emilia olha para a câmera em frente à parede amarela de sua casa. Só que há um porém: Emilia Fyodorov não existe.

Esta imagem foi retirada de um perfil do Twitter chamado This Person Does Not Exist (@wedontexisthere), cujo nome por ser traduzido como “Esta pessoa não existe”. Aqui vale uma pausa: o que exatamente significa não existir neste contexto?

Quer ficar por dentro das melhores notícias de tecnologia do dia? Acesse e se inscreva no nosso novo canal no youtube, o Canaltech News. Todos os dias um resumo das principais notícias do mundo tech para você!

Tanto nomes, quanto idades e cidades natais são criados automaticamente por um sistema programado pelo desenvolvedor Babak Fakhamzadeh. Entretanto, este não é o mais impressionante de toda esta história. O ponto principal é que até mesmo os rostos destacados nas fotos do perfil não existem.

Tais fotos foram criadas por um sistema chamado StyleGAN da Nvidia, capaz de criar totalmente do zero um rosto com características críveis quase indistinguíveis da realidade para o olho humano. Ou seja, parece real.

Para colocar em perspectiva, isso quer dizer que, se fosse possível comparar cada imagem com a face das mais de 7 bilhões de pessoas no mundo, tais fotos deste perfil não seriam iguais a ninguém que existe. Poderia ser até parecido, mas não igual.

Por isso, o perfil é uma lista de pessoas que não existem.

Como isso é possível? 

A sigla GAN vem do inglês para “rede adversária generativa”. Trata-se de uma técnica que utiliza aprendizagem de máquina (ou machine learning, no termo inglês mais conhecido) para lapidar fotos até chegar à perfeição.

O GAN funciona com base em um modelo que opera em duas redes. Para efeitos de simplificação, vamos considerar aqui como se fossem dois computadores interligados, um chamado de gerador e outro de julgador (na realidade, trata-se de uma rede deles em cada um dos lados).

Ambos são alimentados com um banco de dados para análise (no caso desta reportagem, os dados são fotos de rostos de pessoas de variados tipos). Inicialmente, o gerador fica encarregado de tentar replicar as imagens observadas. Seria algo como um pintor olhando vários cubos de diferentes tamanhos, texturas e cores para depois fazer a sua versão, distinta das originais.

Já o outro sistema, o julgador, é responsável por analisar as imagens criadas pelo gerador e avaliar se estão realmente parecidas com as fotos do banco de dados. Tal qual um professor de pintura, o sistema julgador observa pixel por pixel na imagem e devolve a análise para o sistema gerador corrigir o que está fora do eixo.

Este ciclo de geração e julgamento se repete centenas ou milhares de vezes até que o conjunto chegue a um resultado perfeito em comparação com o banco de dados.

Segundo a Nvidia, é preciso entre 50 mil a 100 mil imagens para treinar um modelo de GAN de alta qualidade. O que o StyleGAN2 da empresa faz é conseguir garantir que sistema possa ter um resultado melhor mesmo com bem menos dados que as centenas de milhares exigidos para isso.

Automático

Babak Fakhamzadeh é iraniano, mas atualmente mora no Brasil, realizando trabalhos em tecnologia para a Agência Pública. Ele gosta de misturar tecnologias. Umas das suas ideias é o LoremFlickr, a mistura do criador de textos aleatórios “lorem ipsum”, só que para imagens. Caso um desenvolvedor precise de uma foto só para ilustrar momentaneamente um site, pode usar o código dele.

A ideia de criar o perfil @wedontexisthere nasceu de uma brincadeira dele em 2019 da mesma ideia de misturas. Não é Fakhamzadeh que cria as fotos; ele é responsável por dar vida a elas. “A cada hora, é gerada uma descrição para esta persona, baseado em dados gerados automaticamente em parâmetros de reconhecimento facial que eu ajustei”, explica.

A mistura de duas tecnologias aqui vem das imagens criadas por aprendizagem de máquina em GAN e reconhecimento facial. As fotos são tão realistas que Fakhamzadeh utiliza um sistema de reconhecimento facial em cima delas, e ele funciona.

Com isso, a ferramenta automatizada pelo desenvolvedor consegue oferecer nome, localidade e idade baseados no que o sistema de reconhecimento facial infere. Fakhamzadeh diz que existe um grau de aleatoriedade, mas, por exemplo, a plataforma é suficiente para não indicar que a representação de uma idosa é relativa a de um bebê de dois anos de idade.

“Na verdade, eu gostaria de ir até além em algumas APIs de reconhecimento facial para extrair outras nuances. Por exemplo, como uma pessoa com tez mais oriental ser relacionada a um país e nome também mais orientais. Só que estes serviços cobram para isso mais do que eu gostaria de gastar com essa ideia”, brinca.

Babak Fakhamzadeh, criador do perfil @Wedonotexisthere (Foto: Arquivo Pessoal)

Uma viagem pelas fotos do perfil @wedontexisthere traz uma sensação bastante curiosa. Algo entre reconhecer aquilo como real, mas ainda ter um sentimento de que algo está fora do lugar. Esta sensação quase que de repulsa ou até medo é comum em sistemas realistas que tentam replicar, principalmente, comportamentos humanos. Tão comum que tem até nome: é o vale da estranheza (ou uncanny valley, pelo nome inglês pelo qual é mais conhecido).

Em uma animação ou jogo de videogame, é fácil perceber onde está a estranheza. Por mais realistas que os rostos das pessoas possam parecer, os movimentos, trejeitos e traços do rosto deixam claro que se trata apenas de uma animação.

Só que esta percepção fica muito mais difícil quando se trata de uma imagem. As fotos listadas no perfil não são reais, mas fora de contexto podem ser passar por verídicas.

Vamos a um experimento simples. Abaixo, há uma foto tirada de uma pessoa real e outra produzida via GAN e retirado do perfil criado por Fakhamzadeh. A pergunta é: você saberia dizer qual é a real?

À esquerda, uma foto real. À direita, gerada por GAN (Foto: Wagner Wakka/Canaltech e Twitter/@wedonotexisthere)

Esta é uma das discussões que o desenvolvedor quer trazer para a mesa ao criar este perfil. “Eu acho que tem vários riscos associados a isso”, aponta Fakhamzadeh. “Claro, a gente sempre pode pensar em bons e maus usos da tecnologia”.

De fato, há pontos positivos na tecnologia. Por exemplo, ela tem sido usada para colaborar com desenvolvedores de jogos e animação para reduzir o tempo de criação de personagens fotorrealistas. Em uma demo, em que os desenvolvedores ainda não precisam do modelo final para apresentar uma ideia, imagens criadas por GAN seriam um passo rápido.

Por outro lado, Fakhamzadeh levanta que um dos riscos é exatamente a dificuldade de comprovar que esta imagem não é de uma pessoa se a foto estiver fora de um contexto. “Eu recebo várias respostas de pessoas no perfil do Twitter questionando: ‘como que você pode comprovar que esta pessoa não existe mesmo?’. Este questionamento é correto. Eu simplesmente não consigo. Para isso, eu precisaria mostrar fotos de todas as pessoas do mundo para comprovar e isso é impossível’, questiona o desenvolvedor.

A questão está posta, mas será que isso poderia ser nocivo? Fakhamzadeh reconhece que a tecnologia em si não é o problema, porém pode ser usada de modo bastante prejudicial. “Vamos dizer que um país em guerra aponte que ataques inimigos com foguetes tenham matado um número de pessoas, sendo estas pessoas são ligadas a nomes e fotos fakes. Como que o outro país poderia desmentir isso?”, levanta a questão. “Se a pessoa usa a minha foto, eu posso informar que isso é mentira. Mas e se essa pessoa realmente Não existir?”.

Em um caso como descrito por Fakhamzadeh, seria possível comprovar que a imagem foi criada por GAN? O Canaltech fez esta pergunta ao time de desenvolvimento em IA da Nvidia, mas empresa informou que os especialistas “não comentam sobre o site no qual a matéria está sendo baseado”.

Contudo, Fakhamzadeh aponta que conseguir reconhecer que a imagem é falsa vai de encontro à premissa do GAN. “Toda natureza disso é que redes de inteligência artificial se confrontam até que a segunda diga se a imagem parece fake ou não. Assim, o modelo é baseado na ideia de não se conseguir distinguir se aquilo é real. Se você consegue distinguir, então, não estamos falando deste modelo”, rebate.

Fonte: Nvidia, This Person Does Not Exist  

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.