Stable Cascade | Stability lança nova IA para criar imagem

Por Bruno De Blasi • Editado por Douglas Ciriaco | 14/02/2024 às 11:46

Compartilhe:

A Stability AI, desenvolvedora do popular Stable Diffusion, apresentou um novo modelo de inteligência artificial generativa para criar imagens a partir de textos: o Stable Cascade. Ainda limitado ao uso não comercial, a tecnologia conta com a arquitetura Würstchen e chama a atenção pela sua eficiência para reduzir os gastos ao gerar ou editar imagens com IA.

Stable Cascade é mais rápido

A Stability AI demonstrou o potencial da solução do Stable Cascade ao compará-la com outros modelos, incluindo o Stable Diffusion XL (SDXL). O grande destaque se encontra na velocidade de inferência — o tempo que o algoritmo leva para processar as informações, ou seja, quanto menor, melhor.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

O Stable Cascade precisou de, ao todo, 10 segundos para concluir o processamento. Já o SDXL e o Playground v2 levaram 22,8 segundos para oferecer os resultados da mesma solicitação.

O novo algoritmo só perdeu para o SDXL Turbo, que tem foco na velocidade e somente uma etapa no processo: 0,3 segundo. Por outro lado, o lançamento é superior à versão mais ágil do Stable Diffusion quando o assunto é estética, que avalia a qualidade da imagem gerada ou editada.

Além disso, o Stable Cascade lidera no quesito alinhamento do prompt — ou seja, ele é mais fiel às solicitações dos usuários. Especialmente em relação ao Würstchen v2, que teve o pior resultado no comparativo entre os modelos.

Abordagem de três estágios

O grande destaque da nova solução da Stability se concentra na abordagem de três estágios. Esse processo é dividido em dois grupos, sendo um para interpretar e transformar o comando dado pelo usuário (prompt, em inglês) e outro para comprimir as imagens.

Seguindo essa abordagem, o algoritmo começa pelo estágio C, que analisa o prompt. Essa etapa, que compreende o primeiro grupo, usa exclusivamente modelos estatísticos de difusão latente para processar os dados.

Continua após a publicidade

O processo dá sequência no segundo grupo, que concentra duas etapas do processo na seguinte ordem: estágio B, também com modelo de difusão latente, e o estágio C, com VAE para fazer a codificação e a compressão dos dados com rede neural.

Após esse processo, em que existem nuances mais aprofundadas e variações para atender às necessidades dos desenvolvedores, a imagem é entregue a quem realizou a solicitação.

Apenas para uso não comercial

Continua após a publicidade

O Stable Cascade garante recursos essenciais, como a possibilidade de oferecer variação das mídias geradas, criar imagens a partir de outras imagens e duplicar a resolução dos arquivos (upscaling). Mas todos esses recursos têm um limite de uso, pois o algoritmo está disponível apenas para uso não comercial.

Além disso, o modelo está em fase prévia para pesquisas e tende a ser aprimorado com o tempo. Enquanto isso, os desenvolvedores podem explorar o Stable Cascade no repositório oficial do GitHub (github.com/Stability-AI/StableCascade).