Quais as melhores IAs para criar apps no Android? Google responde
Por Marcelo Fischer Salvatico • Editado por Bruno De Blasi | •

O Google anunciou nesta quinta-feira (5) o lançamento do Android Bench, um ranking oficial criado para avaliar o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas de desenvolvimento de aplicativos para a plataforma.
- GPT-5.4 chega ao ChatGPT com mais precisão e menos alucinações
- Buscas por 'nudify' batem recorde e FGV cobra ação do Google
Na primeira edição da lista, a inteligência artificial (IA) da própria empresa, o Gemini 3.1 Pro Preview, alcançou a primeira colocação com 72,4% de taxa de sucesso na resolução dos testes.
Logo atrás do modelo do Google, o Claude Opus 4.6, da Anthropic, registrou 66,6% de aprovação. O GPT-5.2-Codex completou o pódio do ranking com 62,5%.
A lista segue com o Claude Opus 4.5 (61,9%) e o Gemini 3 Pro Preview (60,4%) nas posições seguintes.
Os resultados indicam uma variação ampla de capacidade entre as ferramentas avaliadas pela empresa, com taxas gerais de conclusão de tarefas que oscilaram entre 16% e 72%.
Confira o ranking completo:
Como funciona o Android Bench
A avaliação utiliza problemas reais extraídos de repositórios públicos do GitHub, com diferentes níveis de dificuldade.
Os testes exigem que a IA resolva desafios práticos de programação, como a migração para versões recentes do Jetpack Compose, a adaptação a quebras de compatibilidade em novas atualizações do sistema operacional e a configuração de redes em dispositivos vestíveis (wearables).
A verificação das correções de código geradas pelas IAs ocorre por meio de testes automatizados de unidade e de instrumentação. Essa abordagem avalia a capacidade técnica de cada ferramenta de navegar por bases de código complexas e compreender dependências.
A metodologia do ranking contou com a validação de empresas atuantes no setor. Segundo o chefe de integrações de IA da JetBrains, Kirill Smelov, a estrutura do Android Bench fornece a avaliação realista e rigorosa necessária para medir o impacto da IA no ecossistema de desenvolvimento Android.
Transparência e disponibilidade
O Google disponibilizou a metodologia, o conjunto de dados e o ambiente de testes de forma pública no GitHub.
Para evitar a contaminação de dados — cenário em que a IA apresenta um bom resultado apenas por já ter memorizado o problema durante seu treinamento original —, a empresa implementou revisões manuais e a integração de strings de segurança (canary strings) no código.
O objetivo da ferramenta é estabelecer uma linha de base para que os criadores de LLMs identifiquem falhas operacionais e aprimorem seus sistemas voltados à programação.
Os desenvolvedores de aplicativos já podem testar os modelos avaliados utilizando chaves de API diretamente na versão estável mais recente do Android Studio.
Veja também:
- 'Não faça isso': IA alucina e apaga todos os e-mails de executiva da Meta
- Brasileiros confiam na IA para finanças, mas querem tomar as próprias decisões
- Tudo sobre o Gemini: veja como a IA do Google funciona e os seus recursos
Ouça o Podcast Canaltech: