Google revela duas IAs que "imitam" DALL-E, só que com vídeos

Por Alveni Lisboa • Editado por Douglas Ciriaco | 06/10/2022 às 16:11

Compartilhe:

O Google deu uma pequena amostra de duas novas ferramentas de inteligência artificial que transformam texto em vídeo. Uma se concentra em oferecer imagens de qualidade, mais realistas, enquanto outra permite a criação de clipes mais longos.

Continua após a publicidade

Google Imagen Video

A primeira ferramenta é a Imagen Video. O Google Imagen é um sistema mais antigo da empresa, lançado para rivalizar com o DALL-E e outras tecnologias semelhantes. A versão em vídeo parte do mesmo pressuposto, mas adiciona uma técnica de IA mais aprimorada e um componente capaz de transformar uma única imagem estática em várias com o movimento fluido.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

O resultado lembra bastante os GIFs tradicionais e mescla cenários, estilos visuais e conteúdos surreais em um visual estilizado. É claro que algumas imagens ainda parecem bastante falsas, mas há tantas outras que impressionam — alguém retirando neve com a pá e uma pessoa pegando uma xícara de café.

A IA ainda parece ser incapaz de reproduzir corretamente o movimento de pessoas e animais reais, criando algumas deformações. Mesmo assim, não dá para negar o quão fascinante é saber que tudo isso foi criado apenas com orientações textuais, sem qualquer interferência humana na edição.

Como são criadas imagens no Imagen Video

O Google ainda divulgou quais foram as legendas usadas para criar cada imagem. Muita gente pensa que é necessário ser extremamente preciso para criar conteúdos nessas ferramentas de IA, mas isso não é verdade. Obviamente que quanto mais detalhista você for, maiores as chances de o resultado sair como o esperado.

O modelo usado pelo Imagen Video produz 16 quadros de imagens de 3 fps e resolução de 24x48 pixels. O conteúdo de baixa resolução original é automaticamente redimensionado graças a uma ferramenta embutida, resultado em GIFs com 128 quadros de imagens com 24fps e resolução de 1280x768.

A ideia do Google parece inspirada na iniciativa da Meta. A controladora do Facebook e Instagram compartilhou recentemente um novo modelo de IA que transforma scripts de texto em vídeos curtos e sem som.

Continua após a publicidade

Tal como ocorre na maioria dos modelos guiados por aprendizado de máquina, sempre existe o temor de IAs reproduzirem preconceitos sociais. Os engenheiros de software do Google disseram ter testado alguns filtros para evitar o uso indevido, mas não disseram se pretendem implementá-los.

As pessoas podem acabar usando essas ferramentas para criar deepfakes, pornografia não autorizada, racismo, discursos de ódio e incentivos à violência. É possível que sejam futuramente implementadas algumas travas de palavras-chave para evitar a criação deste tipo de conteúdo indesejado quando o público tiver acesso.

Google Phenaki

Continua após a publicidade

O outro modelo apresentado pelo Google é chamado Phenaki. Embora a tecnologia seja bem parecida com o Imagen, o foco aqui é criar vídeo mais longos a partir dos roteiros mais detalhados.

Na prática, a ferramenta deve possibilitar a criação de pequenas histórias animadas, como ocorreria em quadrinhos, quando o desenhista recebe o script pronto para o autor e tenta transformá-lo em desenho. Essa IA deve ser mais voltada para o mercado profissional, já que exigirá conhecimentos avançados em roteirização e descrição.

Por exigir mais na hora da criação, o resultado do Phenaki é muito menos impressionante sob a ótica da qualidade visual. As imagens geradas tem uma resolução baixa e a movimentação é bem artificial.

Mas se você pensar que o vídeo de 2 minutos e 21 segundos foi inteiramente construído por uma inteligência artificial, a partir de um parágrafo de descrição, verá a grandiosidade da ferramenta. Há vários projetos desenvolvidos pelos pesquisadores do Google e disponibilizados no site para impressionar o usuário.

Continua após a publicidade

Segundo a publicação oficial, o modelo será capaz de gerar vídeos sem limitação de tempo e com som. Versões futuras serão parte de um conjunto de ferramentas voltadas para artistas e não artistas explorarem sua criatividade. Já imaginou construir uma animação inteira somente pelo Phenaki? Isso ainda não é possível, mas pode ser uma realidade no futuro. Pixar que se cuide...