Google I/O | Gemini está mais rápido na versão paga e ganha modelo mais veloz

Por Bruno De Blasi | Editado por Douglas Ciriaco | 14 de Maio de 2024 às 14h55

Link copiado!

Tudo sobre Google

O Google anunciou uma série de novidades ao Gemini nesta terça-feira (14), durante o evento I/O 2024. Além de liberar o Gemini 1.5 Pro ao chatbot para assinantes do plano AI Premium do Google One, a empresa anunciou que o modelo de inteligência artificial (IA) terá uma janela de contexto de 2 milhões de tokens.

Gemini 1.5 Pro mais acessível

As atualizações elevam as apostas da empresa em IA, um esforço que ganhou cada vez mais destaque desde o ano passado. É o caso do Gemini 1.5 Pro, o modelo da empresa com janela de contexto de 1 milhão de tokens para processar documentos, fotos e mais.

Continua após a publicidade

Depois de liberar uma prévia do modelo para desenvolvedores em fevereiro, o Google começou a distribuir a tecnologia a mais pessoas nesta terça-feira (13). É o caso dos assinantes do Gemini Advanced, oferecido no plano AI Premium do Google One por R$ 97 por mês.

A aproximação permite que os assinantes tenham acesso a uma tecnologia mais encorpada. No lançamento da versão 1.5, o Google chegou a sustentar que a edição Pro permite a análise de 1h de vídeo, 11h de áudio, 30 mil linhas de código ou mais de 700 mil palavras. O serviço também foi integrado aos apps de produtividade do Workspace.

“Em breve, a Gemini Advanced atuará como analista de dados, descobrindo insights e criando visualizações e gráficos personalizados dinamicamente a partir de arquivos de dados carregados, como planilhas”, disse a vice-presidente e gerente geral de Gemini Experiences e Google Assistente, Sissie Hsiao. “O Gemini mantém seus arquivos privados e eles não são usados para treinar nossos modelos.”

Todo esse poder de fogo agora está disponível no chatbot que leva o mesmo nome. A versão 1.5 Pro estará disponível no Gemini Advanced “em mais de 150 países e em mais de 35 idiomas”, segundo a executiva.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

2 milhões de tokens e 1.5 Flash

O Gemini 1.5 Pro também vai ficar ainda mais encorpado. No Google I/O 2024, a empresa anunciou que o modelo vai ganhar uma outra atualização para suportar uma janela de contexto de 2 milhões de tokens. Esse reforço, no entanto, ainda está limitado aos desenvolvedores pela API e assinantes do Google Cloud em fila de espera.

“Além de estender sua janela de contexto para 2 milhões de tokens, aprimoramos sua geração de código, raciocínio lógico e planejamento, conversação multivoltas e compreensão de áudio e imagem por meio de dados e melhorias algorítmicas”, disse o CEO do Google DeepMind, Demis Hassabis.

Continua após a publicidade

Além disso, há novidades para quem busca modelos mais enxutos: o 1.5 Flash. A nova tecnologia foca em velocidade e eficiência e foi otimizado para tarefas com grande volume em escala.

“Embora seja um modelo mais leve que o 1.5 Pro, é altamente capaz de raciocínio multimodal em grandes quantidades de informações”, explicou Hassabis. “O 1.5 Flash é excelente em resumos, aplicativos de bate-papo, descrição de imagens e vídeos, extração de dados de documentos e tabelas longas e muito mais.”

Projeto Astra: IA no dia a dia

Continua após a publicidade

Além de anunciar atualizações na sua linha de produtos, o Google demonstrou uma iniciativa ambiciosa para levar o Gemini para o dia a dia: o projeto Astra. Em um vídeo, a empresa apresentou o uso da tecnologia que acompanha e orienta o usuário em tempo real em interações pela câmera, comandos de voz, toque na tela e muito mais.

O conteúdo começa com um celular com a câmera aberta, apontando para um escritório. Nesse primeiro momento, a interlocutora se aproxima de uma caixa de som, desenha uma seta para o objeto e pergunta “como essa parte da caixa de som é chamada?”. Em seguida, o celular responde: “isso é um tweeter”.

Na sequência, a interlocutora aponta a câmera para um código em exibição na tela de um computador e pede para o assistente interpretar as linhas. A resposta também veio de imediato: “esse código define as funções de encriptação e desencriptação”.

Apesar da prévia, que chega até a lembrar dos assistentes de voz do filme Her, ainda não há uma data de lançamento da tecnologia para o público em geral — apenas a previsão de que alguns recursos chegarão aos serviços do Google até o fim do ano. Ao contrário da OpenAI, que revelou um assistente de voz multimodal para o ChatGPT nesta segunda-feira (13).