Publicidade

Google libera IA que consegue mexer no computador e controlar a tela sozinha

Por  | 

Compartilhe:
Divulgação/Google
Divulgação/Google

O Google anunciou a integração da função “Computer use” ao modelo Gemini 3.5 Flash para que agentes de inteligência artificial possam visualizar a tela e executar ações em computadores, navegadores e aplicativos. A novidade já está disponível para desenvolvedores e empresas por meio da API do Gemini e da plataforma Gemini Enterprise Agent.

A ferramenta transforma o modelo em um agente que consegue realizar tarefas completas de forma autônoma, como clicar em botões, preencher formulários, rolar páginas e navegar entre sistemas internos. O foco inicial é o ambiente corporativo, com aplicações em automação de processos, análise de dados e testes de software.

A empresa já havia incorporado recursos de navegação com agentes, como o Auto Browse no Chrome Enterprise no início do ano. Agora, a nova integração no Gemini 3.5 Flash amplia essa lógica para funcionar sobre qualquer tela.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

Apesar do avanço, a empresa destaca que o sistema ainda enfrenta limitações em situações imprevisíveis, como CAPTCHAs, pop-ups e interfaces dinâmicas. Para reduzir riscos, foram incluídos mecanismos de segurança, como confirmação humana em ações sensíveis e interrupção automática em caso de detecção de possíveis tentativas de manipulação. Esses controles são opcionais e não vêm ativados por padrão.

O Google também adotou treinamento adversário focado especificamente na prevenção de injeção de prompts, um tipo de ataque em que instruções maliciosas ocultas em páginas da web ou documentos podem induzir a IA a executar ações não intencionais.

A novidade chega para competir com a pioneira no segmento, a Anthropic, cujo Claude Computer Use já atua com interação mais ampla em sistemas operacionais e arquivos. O espaço também vem recebendo movimentação crescente da OpenAI, que amplia suas iniciativas em agentes de IA capazes de executar tarefas em ambientes digitais.

Como funciona o “Computer use”?

O recurso funciona como uma camada nativa no Gemini 3.5 Flash, dispensando modelos separados para automação, e substitui o modelo independente Gemini 2.5, lançado em outubro de 2025 para uso em computadores. O objetivo é acelerar fluxos de trabalho mais complexos, nos quais a IA precisa interagir com interfaces gráficas em vez de apenas gerar respostas em texto.

O processo acontece em um ciclo contínuo que começa com a captura da tela atual. A partir dessa imagem, o Gemini analisa os elementos visuais e entende o que precisa ser feito para cumprir a tarefa. Com base nisso, ele cria comandos estruturados, como cliques em botões, digitação de textos ou rolagem de páginas. Cada ação executada atualiza a tela, e a IA usa essa nova imagem para continuar o processo.

Esse fluxo viabiliza a execução de tarefas em várias etapas, como preenchimento de formulários, navegação em sistemas internos e testes de aplicativos. A cada interação, a IA ajusta o comportamento conforme o que aparece na interface.

Continua após a publicidade

Como testar o “Computer use” do Gemini?

Para desenvolvedores interessados em testar o recurso, o Google oferece um ambiente de demonstração no Browserbase (gemini.browserbase.com), em que é possível experimentar a ferramenta em um cenário controlado.

A empresa também recomenda acessar a documentação e a implementação de referência pela API do Gemini e pela plataforma Gemini Enterprise Agent.

Se você gostou do conteúdo, talvez também se interesse por saber qual é a diferença entre IA generativa e agentes de IA.