Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

ImageBind | IA da Meta usa diferentes sentidos humanos para gerar conteúdo

Por| Editado por Douglas Ciriaco | 09 de Maio de 2023 às 14h48

Link copiado!

iLexx/Envato
iLexx/Envato

O CEO da MetaMark Zuckerberg anunciou o lançamento de um modelo de inteligência artificial capaz de criar conteúdo a partir de vários sentidos humanos. Chamado de ImageBind, o sistema analisa dados multissensoriais, como visão e sensação de profundidade, de modo similar ao cérebro humano, transformando isso em informação para gerar uma ação.

Um post no perfil oficial de Zuckerberg e no site da companhia detalham o funcionamento dessa que promete ser uma IA inovadora para sistemas de criação e robôs.

Continua após a publicidade

Segundo a Meta, a tecnologia consegue agrupar seis modalidades de informação:

  • Texto;
  • Imagem ou vídeo;
  • Áudios;
  • Profundidade (3D);
  • Temperatura; e
  • Unidades de Medição Inercial (IMU) (posicionamento e orientação).

O mais difícil de compreender dessa lista é o IMU. Na prática, esse índice possibilita o cálculo do posicionamento e da orientação de um objeto no ambiente, o que permite identificar possíveis movimentos no espaço físico ao redor.

Todos esses dados são coletados automaticamente e utilizados no cálculo da próxima ação, sem a necessidade de supervisão humana. Os cientistas da Meta acreditam que tal modelo poderia superar o desempenho dos testes feitos anteriormente com máquinas especializadas treinadas por humanos, afinal a aprendizagem de máquina pode dispensar a interferência externa.

Continua após a publicidade

Como o ImageBind pode funcionar na prática?

Uma forma mais simples de entender o funcionamento do ImageBind é apresentar exemplos. Imagine um robô de carregamento de trens de carga que lida com líquidos inflamáveis.

Uma máquina comum continuaria a executar sua função indefinidamente, mas um robô equipado com a IA da Meta poderia alertar os técnicos humanos ao rastrear uma variação de calor. O ajudante robótico associaria tal achado a um som de explosão e à constatação visual de fogo no interior do vagão para tomar uma decisão.

Continua após a publicidade

Dependendo do treinamento do algoritmo do robô, ele poderia decidir sozinho o melhor a ser feito. Sairia de perto apenas? Pegaria um extintor de incêndio? Desligaria o circuito elétrico? Avisaria para os humanos evacuarem o local? Todas as decisões seriam tomadas com base em cálculos matemáticos envolvendo probabilidades e estatísticas associadas ao dados holísticos.

ImageBind no cotidiano das pessoas

Embora tenha aplicações interessantes no ambiente profissional, esse modelo de IA também deve ser usado em soluções mais simples do dia a dia das pessoas. Uma das hipóteses é com o Make-A-Scene, tecnologia da Meta capaz de criar imagens a partir de texto.

Nesse caso, o ImageBind produziria a foto de uma floresta tropical apenas com o carregamento de sons de animais da Amazônia ou criaria um cenário urbano com efeitos sonoros de um mercado movimentado. Se forem adicionados também vídeos demonstrativos com detalhes sobre o ambiente, a precisão do resultado será muito maior.

Continua após a publicidade

Isso significa que será possível combinar o som de um galo cantando com a foto de um relógio cuco marcando 5h da manhã para gerar um conteúdo sobre a vida na fazenda. Se não quisesse algo novo, o autor poderia apenas associar o som do galo com o relógio para criar uma sequência em vídeo curto.

O sentido inverso também pode ser empregado: você resgata um vídeo panorâmico lindo ainda sem edição. Nesse caso, o modelo analisa todos os aspectos presentes, como o pôr do Sol e o som das ondas do mar quebrando ao fundo, para escolher uma música bacana que intensifique a experiência para usar no Reels ou nos Stories.

Outras possibilidades futuras incluem maneiras de reconhecer, conectar e moderar conteúdo em redes sociais associando imagem com o contexto escrito. Também se espera a capacidade de impulsionar o design criativo, gerar mídias mais ricas e criar funções de pesquisa multimodais amplas — imagine pesquisar por um conteúdo sem depender de palavras-chaves escritas, como ocorre atualmente.

Continua após a publicidade

Quando o ImageBind chega para as pessoas?

Ainda não há previsão para chegada do ImageBind no mercado, pois o modelo ainda está em fase de otimização. A Meta espera contar com o apoio da comunidade de especialistas para melhorar o modelo e pode começar a testá-lo nos seus principais produtos. Não há, contudo, nenhuma previsão de uso no horizonte.

Em meados de abril, o laboratório de IA da Meta, abriu o código do Animated Drawings para quem quiser utilizá-lo. Trata-se de um projeto de inteligência artificial que transforma desenhos em animações, assim outros desenvolvedores podem criar experiências mais ricas com a ferramenta.

A proprietária do Facebook e do Instagram também planeja lançar uma IA capaz de criar anúncios otimizados para redes sociais. A IA aumentaria a eficácia de um anúncio informando ao criador quais ferramentas são mais adequadas para a necessidade, enquanto o chatbot ajudaria na produção do texto das legendas.