Nova IA do Google cria imagens impressionantes a partir de descrições em texto
Por Igor Almenara • Editado por Douglas Ciriaco |
Nesta semana, o Google apresentou o Imagen, um novo gerador de imagens baseadas em texto alimentado por inteligência artificial. O projeto, com teor inteiramente experimental, interpreta descrições visuais de uma figura e cria imagens com “grau sem precedentes de fotorrealismo”, misturando texturas, cores e até estilos de pinturas.
- Google vai colocar anúncios em vídeo no feed do Discover
- Google Street View: quais são os lugares mais visitados no Brasil e no mundo?
O Imagen tem semelhanças com o projeto DALL-E, desenvolvido pelo laboratório de IA OpenAI — agora, em sua edição “DALL-E 2”. Contudo, os resultados da máquina do Google vão além em termos de qualidade e interpretação de texto, apresentando resultados bastante inusitados (por vezes, engraçados) de solicitações feitas por humanos.
Os resultados estão todos expostos no site oficial do Imagen — neste artigo, porém, o Canaltech destaca algumas criações interessantes. Segundo o Google, o projeto tende a apresentar resultados mais precisos que geradores de imagens similares, de acordo com testes executados no DrawBench, um sistema de avaliação baseado em cerca de 200 descrições em texto cujos resultados em imagens são avaliados por humanos.
Ainda indisponível
Contudo, diferente de alternativas, o Google não deixou o modelo do Imagen disponível para o público. Geradores de imagens como este têm um enorme potencial para criar figuras nocivas e alimentar a circulação de notícias falsas — razão pela qual a empresa pode ter optado por manter o acesso ao modelo restrito.
E o Google não está errado em restringir o acesso ao modelo: em uma das descrições do projeto, a empresa revela que o Imagen tem a tendência de apresentar resultados compostos por pessoas com tom de pele mais claro e apelar para estereótipos de profissões ocidentais.
IA tem "preconceitos"
As tendências do Imagen, porém, não são únicas do Google. O DALL-E também apresenta resultados enviesados — por vezes, retratando questões latentes da sociedade. Um exemplo é que solicitações como “comissário de bordo” (do inglês “flight attendant”) tendem a apresentar mulheres nas imagens, enquanto fotos de CEOs apresentam homens brancos.
A solução para esse problema, naturalmente, é o enriquecimento do modelo com ainda mais imagens e dados. O processo tende a demorar, mas o Google parece comprometido em entregar um gerador de imagens mais neutro e criar métodos de avaliação para preconceito social de IA no futuro.