Google atualiza cache do Gemini e promete reduzir custos da IA a desenvolvedores

O Google ativou nesta quinta-feira (8) o cache implícito em todos os modelos do Gemini 2.5 em sua API. O recurso ajuda desenvolvedores a economizarem tokens em suas requisições e funciona de forma automática.

  • Vale a pena pagar por uma IA? Entenda os benefícios de assinar um chatbot
  • DeepSeek vs Gemini: conheça 5 diferenças entre os chatbots

De acordo com o gerente sênior de Produto da API do Gemini e do Google AI Studio, Logan Kilpatrick, quando o usuário digitar um comando com termos iguais a um que esteja salvo no cache, economiza até 75% dos tokens necessários para a ação.

Kilpatrick fez o anúncio em seu perfil no X na tarde de ontem, e o Google também lançou uma nota em seu blog oficial para desenvolvedores.


Entre no Canal do WhatsApp do Canaltech e fique por dentro das últimas notícias sobre tecnologia, lançamentos, dicas e tutoriais incríveis.

O cache implícito funciona de forma automática. Segundo o Google, ao enviar comandos semelhantes para a API do Gemini, haverá a economia esperada, uma vez que as informações não precisarão ser processadas novamente

A empresa recomenda os seguintes caminhos para aumentar as chances de bater o cache implícito:

  • Coloque conteúdos grandes e comuns aos anteriores no início do prompt;
  • Envie solicitações com prefixo semelhante em um curto espaço de tempo.

Para conferir seus acertos de cache implícito, basta acessar o ‘usage_metadata” do objeto de resposta. 

O Google ainda diminuiu a quantidade mínima necessária de tokens de entrada para bater o cache de contexto, para 1.024 tokens no Gemini 2.5 Flash e 2.048 tokens no Pro 2.5.

Qual a diferença entre o cache implícito e o explícito?

A API do Gemini deixa que o desenvolvedor escolha entre tipos de armazenamento em cache: implícito e explícito

O implícito é automático, e não garante que o usuário terá economia de custos, pois depende do uso. Neste caso, quem utiliza o mecanismo deve se atentar ao que manda durante o trabalho e entender o funcionamento para conseguir mais economia.

Já o explícito funciona de forma manual, o usuário define por quanto tempo o cache vai existir antes que os tokens sejam excluídos, e também consultá-los em solicitações futuras. 

O desenvolvedor que escolhe o cache explícito tem uma maior garantia de economia, mas há um esforço maior para definir o que será armazenado.

Veja também:

  • Qual é a diferença entre IA generativa e agentes de IA?
  • 5 diferenças entre a chinesa DeepSeek e o ChatGPT
  • O que é Manus AI? Agente de IA chinês funciona de forma autônoma

VÍDEO: Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?

 

Leia a matéria no Canaltech.

Adicionar aos favoritos o Link permanente.