OpenAI faz testes e diz que ChatGPT-5 já se compara a humanos em várias funções
Por João Melo • Editado por Melissa Cruz Cossetti |

A OpenAI apresentou, nesta quinta-feira (25), os resultados de um benchmark chamado GPDval, que tem o objetivo de monitorar o desempenho de ferramentas de inteligência artificial (IA) em comparação com humanos em diversas tarefas. De acordo com a companhia, o ChatGPT-5 já alcança níveis próximos a especialistas em várias funções.
- O que é GPT-5? Conheça a nova IA do ChatGPT que promete ter menos alucinações
- 6 novidades do GPT-5 que você precisa testar no ChatGPT
- Com a estreia do GPT-5, ChatGPT perde o GPT-4o, o3 e outros modelos; entenda
Os testes foram realizados com foco em tarefas reais e “economicamente valiosas” de 44 ocupações, divididas em 9 setores:
- Imóveis, aluguel e arrendamento;
- Governo;
- Fabricação;
- Serviços profissionais, científicos e técnicos;
- Assistência médica e social;
- Finanças e seguros;
- Comércio varejista;
- Comércio atacadista;
- Informação.
Segundo a empresa, essa avaliação faz parte da missão de garantir que a inteligência artificial geral (AGI) beneficie toda a humanidade, ao mesmo tempo em que comunica com transparência os avanços desses sistemas.
Método do GPDval
A OpenAI selecionou profissionais com média de 14 anos de experiência em cada uma das ocupações analisadas para criar tarefas que representassem seu trabalho diário. As mesmas atividades foram realizadas por modelos de IA, como o GPT-5, o GPT-4o e o Claude Opus 4.1, da Anthropic.
Para avaliar o desempenho, o benchmark contou com um grupo de “classificadores” especialistas, também das mesmas ocupações. Eles compararam os resultados produzidos pelas IAs com os de humanos, sem saber quem era o autor.
“Descobrimos que os melhores modelos de fronteira atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”, destacou a OpenAI.
O Claude Opus 4.1 foi o que mais se destacou, apresentando desempenho igual ou superior ao de especialistas em 47,55% das tarefas. Já o GPT-5 High — versão aprimorada do GPT-5 — obteve resultados iguais ou melhores que os humanos em 38,76% dos casos.
“O Claude Opus 4.1 foi o modelo com melhor desempenho no conjunto, destacando-se particularmente em estética (como formatação de documentos e layout de slides). Já o GPT-5 se destacou em precisão (como na busca de conhecimento específico de domínio)”, explicou a companhia.
Limitações da avaliação
A OpenAI ressalta que o GPDval tem algumas limitações, já que não analisa cenários em que um modelo de IA precisa construir o contexto da tarefa ou melhorar sua atuação após receber feedback de um cliente.
“Além disso, no mundo real, as tarefas nem sempre são claramente definidas com um prompt e arquivos de referência; por exemplo, um advogado pode ter que lidar com ambiguidades e conversar com seu cliente antes de decidir que criar um resumo jurídico é a abordagem certa para ajudá-lo”, acrescenta a empresa.
Leia mais:
- Como funciona o Claude, IA da Anthropic que concorre com o ChatGPT e Gemini?
- Brasil é terceiro país que mais usa o Claude — saiba o que o brasileiro pergunta
- Anthropic põe trava no Claude contra consultas sensíveis sobre armas nucleares
VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?
Fonte: OpenAI