Quais as melhores IAs para criar apps no Android? Google responde

Por Marcelo Fischer Salvatico • Editado por Bruno De Blasi | 06/03/2026 às 09:31 • Atualizado 06/03/2026 às 10:00

Compartilhe:

O Google anunciou nesta quinta-feira (5) o lançamento do Android Bench, um ranking oficial criado para avaliar o desempenho de modelos de linguagem de grande escala (LLMs) em tarefas de desenvolvimento de aplicativos para a plataforma.

Na primeira edição da lista, a inteligência artificial (IA) da própria empresa, o Gemini 3.1 Pro Preview, alcançou a primeira colocação com 72,4% de taxa de sucesso na resolução dos testes.

Logo atrás do modelo do Google, o Claude Opus 4.6, da Anthropic, registrou 66,6% de aprovação. O GPT-5.2-Codex completou o pódio do ranking com 62,5%.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A lista segue com o Claude Opus 4.5 (61,9%) e o Gemini 3 Pro Preview (60,4%) nas posições seguintes.

Os resultados indicam uma variação ampla de capacidade entre as ferramentas avaliadas pela empresa, com taxas gerais de conclusão de tarefas que oscilaram entre 16% e 72%.

Confira o ranking completo:

Como funciona o Android Bench

A avaliação utiliza problemas reais extraídos de repositórios públicos do GitHub, com diferentes níveis de dificuldade.

Os testes exigem que a IA resolva desafios práticos de programação, como a migração para versões recentes do Jetpack Compose, a adaptação a quebras de compatibilidade em novas atualizações do sistema operacional e a configuração de redes em dispositivos vestíveis (wearables).

A verificação das correções de código geradas pelas IAs ocorre por meio de testes automatizados de unidade e de instrumentação. Essa abordagem avalia a capacidade técnica de cada ferramenta de navegar por bases de código complexas e compreender dependências.

Continua após a publicidade

A metodologia do ranking contou com a validação de empresas atuantes no setor. Segundo o chefe de integrações de IA da JetBrains, Kirill Smelov, a estrutura do Android Bench fornece a avaliação realista e rigorosa necessária para medir o impacto da IA no ecossistema de desenvolvimento Android.

Transparência e disponibilidade

O Google disponibilizou a metodologia, o conjunto de dados e o ambiente de testes de forma pública no GitHub.

Para evitar a contaminação de dados — cenário em que a IA apresenta um bom resultado apenas por já ter memorizado o problema durante seu treinamento original —, a empresa implementou revisões manuais e a integração de strings de segurança (canary strings) no código.

Continua após a publicidade

O objetivo da ferramenta é estabelecer uma linha de base para que os criadores de LLMs identifiquem falhas operacionais e aprimorem seus sistemas voltados à programação.

Os desenvolvedores de aplicativos já podem testar os modelos avaliados utilizando chaves de API diretamente na versão estável mais recente do Android Studio.

Veja também:

Continua após a publicidade

Ouça o Podcast Canaltech: