O que é a IA Gemini?
Por Guilherme Haas • Editado por Douglas Ciriaco | •
Gemini é o nome de dois produtos do Google: um chatbot de IA e também um modelo fundacional que é o motoro do bot. Segundo o Google, o diferencial está em sua construção, que desde a concepção foi elaborada como uma tecnologia multimodal, portanto capaz de compreender e combinar informações em diferentes formatos, como texto, imagem, áudio, vídeo e código de programação, para gerar conteúdo.
O modelo de fundação substituiu o PaLM2 no chatbot de IA da companhia. A proposta da Big Tech é ampliar a utilização do Gemini para outros produtos e serviços, como Busca, Chrome, Google Ads e a suíte de aplicativos para escritório (Docs, Planilhas e Apresentações).
Chatbot de IA
Desde janeiro de 2024, Gemini é o nome oficial do chatbot de inteligência artificial do Google. Anteriormente conhecido como Bard, a tecnologia é rival de marcas bem conhecidas da internet, como ChatGPT (OpenAI), Copilot (Microsoft) e Claude (Anthropic), e pode criar textos e imagens, gerar códigos de computação, fazer pesquisas na web, analisar e extrair informações de vídeos do YouTube e muito mais.
Além do site gemini.google.com, o Gemini também está disponível via aplicativo para Android e dentro do app do Google para iPhone. No Android, a inteligência artificial pode substituir o Google Assistente para oferecer respostas e gerar conteúdo, inclusive com suporte a acionamento via comando de voz "ok, Google" e "ei, Google".
Gemini Advanced
Além da versão convencional do Gemini, o Google oferece um pacote extra por meio de assinatura do Google One. Por R$ 97 mensais, o Gemini Advanced oferece recursos avançados de criação de conteúdo, geração de códigos de programação e ainda ajuda você a escrever e-mails no Gmail, textos no Docs, planilhas no Planilhas e slides no Apresentações.
Esta modalidade é uma espécie de resposta do Google às opções ChatGPT Plus, da OpenAI, e Copilot Pro, da Microsoft.
Modelo multimodal
De acordo com o Google, o modelo Gemini é o mais hábil e flexível desenvolvido pela empresa para aplicações de inteligência artificial em múltiplas escalas, desde o processamento em data centers até recursos de IA em celular.
Uma diferença deste modelo em relação aos LLMs concorrentes é o seu treinamento multimodal desde a base. Enquanto outras soluções desenvolveram separadamente o suporte a diferentes formatos (texto, áudio e imagens) para depois conectá-los na ferramenta, o modelo do Google já trabalhou essas relações desde o começo.
Essa característica do Gemini possibilita uma maior compreensão da IA sobre comandos combinados de textos e mídias, além de ampliar a capacidade de responder perguntas complexas. A ferramenta consegue discernir melhor os componentes de uma consulta e analisar grandes volumes de dados — o que permite que longos documentos sejam resumidos ou destrinchados pelo modelo.
Gemini em três tamanhos
Com a proposta de atender demandas de escalas diferentes, o Gemini se apresenta em três tamanhos. São eles:
Gemini Nano
O Nano é a versão mais compacta e com foco em eficiência do modelo para rodar diretamente em tablets e celulares. O Nano tem ainda duas variações: o Nano-1 com capacidade de processar 1,8 bilhão de parâmetros, e o Nano-2 com 3,25 bilhões de parâmetros — diferenciação que permite a aplicação em aparelhos com menos ou mais memória.
O Gemini Nano teve seu lançamento em formato de prévia com uma nova plataforma AICore para o Pixel 8 Pro. O sistema apresenta uma série de recursos de IA, como resumir páginas da web pelo Google Assistente e aplicar soluções inteligentes no Google Fotos. Outros modelos com Android 14 devem receber o Nano no futuro graças a uma API que permitirá a desenvolvedores incluírem recursos da IA em seus apps.
Gemini Pro
A versão intermediária do modelo de linguagem é a que já alimenta o chatbot de IA Gemini em inglês e futuramente deverá ser usada em outros serviços conectados à internet, como o Chrome e Busca do Google. De acordo com a Big Tech de Mountain View, o Gemini Pro é eficiente para a realização de tarefas criativas, produzir texto e resumir conteúdos.
Gemini Ultra
O Gemini Ultra é a versão mais poderosa do pacote, com um conjunto maior de parâmetros e a capacidade de executar tarefas altamente complexas. Segundo o Google, "o desempenho do Gemini Ultra excede os resultados atuais de última geração em 30 dos 32 benchmarks acadêmicos amplamente utilizados na pesquisa e desenvolvimento de Grandes Modelos de Linguagem."
No entanto, essa versão do modelo ainda não está disponível em nenhum produto ou meio, e só será lançada em 2024.
Como usar o Gemini
O modelo de linguagem de larga escala do Google pode ser testado através do site oficial do Gemini (gemini.google.com). Ainda disponível apenas para os EUA, o Gemini também pode ser acessado por meio de um aplicativo para Android e do app do Google para iOS.
O Canaltech preparou um tutorial que ensina como usar o Gemini e apresenta exemplos de perguntas que a IA é capaz de responder.