"Truque" do Google faz IA rodar 3x mais rápido no celular; veja como
Por João Melo |

O Google anunciou recentemente o Gemma 4 como seu modelo aberto de inteligência artificial (IA) com raciocínio mais avançado e voltado ao uso em bots inteligentes. No entanto, toda essa potência pode resultar em maior consumo de recursos e respostas mais lentas — e a empresa agora apresenta uma solução para essas limitações.
- Adeus, protótipos: por que a IA em 2026 será a era dos 'agentes de execução'
- O que são agentes de IA e o que eles podem fazer no seu celular?
A companhia revelou um novo “truque” técnico que permite fazer com que o Gemma 4 rode até três vezes mais rápido, inclusive em celulares. A saída encontrada foi combinar o modelo principal com modelos auxiliares menores, que trabalham em conjunto.
Esses auxiliares fazem parte da técnica chamada Multi-Token Prediction (MTP). Na prática, eles antecipam partes da resposta que será gerada, enquanto o modelo principal valida essas previsões em paralelo durante o processamento.
“Ao usar uma arquitetura de decodificação especulativa, esses modelos de rascunho oferecem até 3x mais velocidade sem qualquer perda na qualidade da saída ou na lógica de raciocínio”, destaca o Google em comunicado.
Como essa combinação acontece na prática?
O ganho de desempenho descrito pela gigante das buscas vem de uma mudança na forma como o texto é gerado pelos modelos de linguagem. Em vez de produzir uma palavra por vez, como acontece tradicionalmente, o sistema desenvolvido pelo Google consegue antecipar múltiplos trechos de uma resposta de uma só vez.
Essa abordagem usa uma técnica chamada decodificação especulativa, que acelera a geração de texto ao dividir o trabalho entre o modelo principal e seus auxiliares.
Fica a cargo do modelo auxiliar antecipar partes da resposta, funcionando como um rascunho que sugere possíveis continuações para o texto. Enquanto isso, o modelo principal valida essas sugestões em paralelo antes de entregar a resposta final ao usuário.
“Se o modelo principal concordar com o rascunho, ele aceita toda a sequência em uma única passagem — e ainda gera um token adicional nesse processo. Isso significa que sua aplicação pode produzir toda a sequência prevista mais um token no mesmo tempo que normalmente levaria para gerar apenas um”, explica a empresa.
Com essa combinação de modelos, o Google destaca que algumas melhorias observadas por quem utiliza o Gemma 4 devem ser:
- Respostas mais rápidas em chats quase em tempo real, apps de voz e ferramentas com IA que executam tarefas automaticamente;
- Possibilidade de rodar modelos avançados em PCs comuns e até offline, facilitando o desenvolvimento e o uso no dia a dia;
- Melhor desempenho em celulares e outros dispositivos, com respostas mais ágeis e menor consumo de bateria;
- Mesma qualidade nas respostas, já que o modelo principal continua revisando tudo antes de entregar o resultado.
Os modelos de rascunho com MTP do Gemma 4 já estão disponíveis sob a mesma licença Apache 2.0 do modelo principal. Eles podem ser baixados em plataformas como Hugging Face, Kaggle e Ollama, e tem compatibilidade com as ferramentas Transformers, vLLM, llama.cpp, LM Studio e Keras.
Se você pretende mergulhar cada vez mais no universo da inteligência artificial, é cada vez mais importante entender qual a diferença entre IA generativa e agentes de IA.