Nova IA do Google cria imagens impressionantes a partir de descrições em texto

Por Igor Almenara | Editado por Douglas Ciriaco | 25 de Maio de 2022 às 12h41

Link copiado!

Nesta semana, o Google apresentou o Imagen, um novo gerador de imagens baseadas em texto alimentado por inteligência artificial. O projeto, com teor inteiramente experimental, interpreta descrições visuais de uma figura e cria imagens com “grau sem precedentes de fotorrealismo”, misturando texturas, cores e até estilos de pinturas.

O Imagen tem semelhanças com o projeto DALL-E, desenvolvido pelo laboratório de IA OpenAI — agora, em sua edição “DALL-E 2”. Contudo, os resultados da máquina do Google vão além em termos de qualidade e interpretação de texto, apresentando resultados bastante inusitados (por vezes, engraçados) de solicitações feitas por humanos.

Continua após a publicidade

Os resultados estão todos expostos no site oficial do Imagen — neste artigo, porém, o Canaltech destaca algumas criações interessantes. Segundo o Google, o projeto tende a apresentar resultados mais precisos que geradores de imagens similares, de acordo com testes executados no DrawBench, um sistema de avaliação baseado em cerca de 200 descrições em texto cujos resultados em imagens são avaliados por humanos.

Ainda indisponível

Contudo, diferente de alternativas, o Google não deixou o modelo do Imagen disponível para o público. Geradores de imagens como este têm um enorme potencial para criar figuras nocivas e alimentar a circulação de notícias falsas — razão pela qual a empresa pode ter optado por manter o acesso ao modelo restrito.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

E o Google não está errado em restringir o acesso ao modelo: em uma das descrições do projeto, a empresa revela que o Imagen tem a tendência de apresentar resultados compostos por pessoas com tom de pele mais claro e apelar para estereótipos de profissões ocidentais.

IA tem "preconceitos"

As tendências do Imagen, porém, não são únicas do Google. O DALL-E também apresenta resultados enviesados — por vezes, retratando questões latentes da sociedade. Um exemplo é que solicitações como “comissário de bordo” (do inglês “flight attendant”) tendem a apresentar mulheres nas imagens, enquanto fotos de CEOs apresentam homens brancos.

A solução para esse problema, naturalmente, é o enriquecimento do modelo com ainda mais imagens e dados. O processo tende a demorar, mas o Google parece comprometido em entregar um gerador de imagens mais neutro e criar métodos de avaliação para preconceito social de IA no futuro.