IA Gemini do Google terá suporte a texto e imagem, revela vazamento

Por André Lourenti Magalhães | Editado por Douglas Ciriaco | 27 de Outubro de 2023 às 17h02

Link copiado!

Tudo sobre Google

O Gemini parece ser a grande aposta de IA do Google para concorrer com o modelo GPT-4, da OpenAI, mas relativamente pouco se sabia a seu respeito até agora. Ainda em desenvolvimento, a tecnologia teve uma série de detalhes vazados numa plataforma da própria empresa e indica suporte para combinação de entradas de imagem e texto. Os dados foram publicados pelo blogueiro Bedros Pamboukian em sua conta no site Medium.

O vazador encontrou informações sobre o Gemini no código do MakerSuite, um conjunto de ferramentas Google voltado para criar grandes modelos de linguagem (LLM) de IA generativa diretamente pelo navegador. Atualmente, a empresa usa o modelo PaLM 2 no Bard, por exemplo, mas o Gemini é uma opção mais avançada e multimodal — ou seja, capaz de combinar textos, fotos e outros arquivos.

IA multimodal

Continua após a publicidade

As capturas de tela publicadas mostram o MakerSuite compatível a prompts que misturam texto e imagens, algo que não era possível com o PaLM 2. Além disso, Pamboukian publicou um print das configurações com uma opção para usar o modelo “Multimodal IT M” — uma análise do código confirma que se trata do Gemini.

Outra imagem vazada no Reddit (abaixo) já permite visualizar os modelos “Gemini Multimodal M” e “Gemini Multimodal IT M” na interface da plataforma. Os rumores apontam para a possibilidade de traduzir prompts de outros idiomas e até gerar conteúdo em HTML com ajuda de inteligência artificial.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Google também desenvolve IA para criar apps

O mesmo blogueiro encontrou indícios de uma nova ferramenta no MakerSuite, com o nome de Stubbs. Essa plataforma teria o objetivo de criar protótipos de aplicativos rapidamente a partir de comandos simples de texto e pode aproveitar a tecnologia do Gemini para combinar imagens aos demais elementos da aplicação.

O que é o Gemini?

O Gemini é um novo modelo de IA generativa desenvolvido pelo Google, com potencial para superar as demais tecnologias do gênero que a companhia desenvolve no momento, como o LLM PaLM 2 e o chatbot Bard. O objetivo da Gigante de Mountain View é criar um concorrente com o mesmo potencial do GPT-4, feito pela OpenAI e considerado o modelo mais potente no mercado.

Continua após a publicidade

Como já mencionado, a nova inteligência artificial seria multimodal e poderia criar textos, imagens e até códigos de programação, combinados com as informações dos outros produtos da empresa. Assim como o GPT-4, o serviço deve ser limitado a planos pagos ou profissionais, e o Google já testa a ferramenta com algumas companhias parceiras.

Os primeiros rumores sobre a poderosa ferramenta começaram a surgir em julho deste ano, com a informação de que o cofundador Sergey Brin teria retornado à empresa para trabalhar no projeto. Além disso, é provável que o serviço use uma técnica do software AlphaGo, desenvolvido pela divisão DeepMind da empresa, para reforçar o aprendizado de máquina e entregar resultados ainda mais potentes.

Fonte: Bedros Pamboukian