IA Gemini do Google terá suporte a texto e imagem, revela vazamento
Por André Lourenti Magalhães • Editado por Douglas Ciriaco |
O Gemini parece ser a grande aposta de IA do Google para concorrer com o modelo GPT-4, da OpenAI, mas relativamente pouco se sabia a seu respeito até agora. Ainda em desenvolvimento, a tecnologia teve uma série de detalhes vazados numa plataforma da própria empresa e indica suporte para combinação de entradas de imagem e texto. Os dados foram publicados pelo blogueiro Bedros Pamboukian em sua conta no site Medium.
- Bard consegue resumir vários e-mails do Gmail de uma só vez
- Google vai pagar para quem encontrar falha de segurança em suas IAs
O vazador encontrou informações sobre o Gemini no código do MakerSuite, um conjunto de ferramentas Google voltado para criar grandes modelos de linguagem (LLM) de IA generativa diretamente pelo navegador. Atualmente, a empresa usa o modelo PaLM 2 no Bard, por exemplo, mas o Gemini é uma opção mais avançada e multimodal — ou seja, capaz de combinar textos, fotos e outros arquivos.
IA multimodal
As capturas de tela publicadas mostram o MakerSuite compatível a prompts que misturam texto e imagens, algo que não era possível com o PaLM 2. Além disso, Pamboukian publicou um print das configurações com uma opção para usar o modelo “Multimodal IT M” — uma análise do código confirma que se trata do Gemini.
Outra imagem vazada no Reddit (abaixo) já permite visualizar os modelos “Gemini Multimodal M” e “Gemini Multimodal IT M” na interface da plataforma. Os rumores apontam para a possibilidade de traduzir prompts de outros idiomas e até gerar conteúdo em HTML com ajuda de inteligência artificial.
Google também desenvolve IA para criar apps
O mesmo blogueiro encontrou indícios de uma nova ferramenta no MakerSuite, com o nome de Stubbs. Essa plataforma teria o objetivo de criar protótipos de aplicativos rapidamente a partir de comandos simples de texto e pode aproveitar a tecnologia do Gemini para combinar imagens aos demais elementos da aplicação.
O que é o Gemini?
O Gemini é um novo modelo de IA generativa desenvolvido pelo Google, com potencial para superar as demais tecnologias do gênero que a companhia desenvolve no momento, como o LLM PaLM 2 e o chatbot Bard. O objetivo da Gigante de Mountain View é criar um concorrente com o mesmo potencial do GPT-4, feito pela OpenAI e considerado o modelo mais potente no mercado.
Como já mencionado, a nova inteligência artificial seria multimodal e poderia criar textos, imagens e até códigos de programação, combinados com as informações dos outros produtos da empresa. Assim como o GPT-4, o serviço deve ser limitado a planos pagos ou profissionais, e o Google já testa a ferramenta com algumas companhias parceiras.
Os primeiros rumores sobre a poderosa ferramenta começaram a surgir em julho deste ano, com a informação de que o cofundador Sergey Brin teria retornado à empresa para trabalhar no projeto. Além disso, é provável que o serviço use uma técnica do software AlphaGo, desenvolvido pela divisão DeepMind da empresa, para reforçar o aprendizado de máquina e entregar resultados ainda mais potentes.
Fonte: Bedros Pamboukian