Publicidade

Google atualiza cache do Gemini para ajudar a reduzir custos ao usar a IA

Por  • Editado por Bruno De Blasi | 

Compartilhe:
Bruno De Blasi/Canaltech
Bruno De Blasi/Canaltech

O Google ativou nesta quinta-feira (8) o cache implícito em todos os modelos do Gemini 2.5 em sua API. O recurso ajuda desenvolvedores a economizarem tokens em suas requisições e funciona de forma automática.

De acordo com o gerente sênior de Produto da API do Gemini e do Google AI Studio, Logan Kilpatrick, quando o usuário digitar um comando com termos iguais a um que esteja salvo no cache, economiza até 75% dos tokens necessários para a ação.

Kilpatrick fez o anúncio em seu perfil no X na tarde de ontem, e o Google também lançou uma nota em seu blog oficial para desenvolvedores.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

O cache implícito funciona de forma automática. Segundo o Google, ao enviar comandos semelhantes para a API do Gemini, haverá a economia esperada, uma vez que as informações não precisarão ser processadas novamente

A empresa recomenda os seguintes caminhos para aumentar as chances de bater o cache implícito:

  • Coloque conteúdos grandes e comuns aos anteriores no início do prompt;
  • Envie solicitações com prefixo semelhante em um curto espaço de tempo.

Para conferir seus acertos de cache implícito, basta acessar o ‘usage_metadata” do objeto de resposta. 

O Google ainda diminuiu a quantidade mínima necessária de tokens de entrada para bater o cache de contexto, para 1.024 tokens no Gemini 2.5 Flash e 2.048 tokens no Pro 2.5.

Qual a diferença entre o cache implícito e o explícito?

A API do Gemini deixa que o desenvolvedor escolha entre tipos de armazenamento em cache: implícito e explícito

O implícito é automático, e não garante que o usuário terá economia de custos, pois depende do uso. Neste caso, quem utiliza o mecanismo deve se atentar ao que manda durante o trabalho e entender o funcionamento para conseguir mais economia.

Continua após a publicidade

Já o explícito funciona de forma manual, o usuário define por quanto tempo o cache vai existir antes que os tokens sejam excluídos, e também consultá-los em solicitações futuras. 

O desenvolvedor que escolhe o cache explícito tem uma maior garantia de economia, mas há um esforço maior para definir o que será armazenado.

Veja também:

Continua após a publicidade

VÍDEO: Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?