Publicidade

OpenAI faz testes e diz que ChatGPT-5 já se compara a humanos em várias funções

Por  • Editado por Melissa Cruz Cossetti | 

Compartilhe:
Viviane França/Canaltech
Viviane França/Canaltech

A OpenAI apresentou, nesta quinta-feira (25), os resultados de um benchmark chamado GPDval, que tem o objetivo de monitorar o desempenho de ferramentas de inteligência artificial (IA) em comparação com humanos em diversas tarefas. De acordo com a companhia, o ChatGPT-5 já alcança níveis próximos a especialistas em várias funções.

Os testes foram realizados com foco em tarefas reais e “economicamente valiosas” de 44 ocupações, divididas em 9 setores:

  • Imóveis, aluguel e arrendamento;
  • Governo;
  • Fabricação;
  • Serviços profissionais, científicos e técnicos;
  • Assistência médica e social;
  • Finanças e seguros;
  • Comércio varejista;
  • Comércio atacadista;
  • Informação.
Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

Segundo a empresa, essa avaliação faz parte da missão de garantir que a inteligência artificial geral (AGI) beneficie toda a humanidade, ao mesmo tempo em que comunica com transparência os avanços desses sistemas.

Método do GPDval

A OpenAI selecionou profissionais com média de 14 anos de experiência em cada uma das ocupações analisadas para criar tarefas que representassem seu trabalho diário. As mesmas atividades foram realizadas por modelos de IA, como o GPT-5, o GPT-4o e o Claude Opus 4.1, da Anthropic.

Para avaliar o desempenho, o benchmark contou com um grupo de “classificadores” especialistas, também das mesmas ocupações. Eles compararam os resultados produzidos pelas IAs com os de humanos, sem saber quem era o autor.

“Descobrimos que os melhores modelos de fronteira atuais já estão se aproximando da qualidade do trabalho produzido por especialistas do setor”, destacou a OpenAI.

O Claude Opus 4.1 foi o que mais se destacou, apresentando desempenho igual ou superior ao de especialistas em 47,55% das tarefas. Já o GPT-5 High — versão aprimorada do GPT-5 — obteve resultados iguais ou melhores que os humanos em 38,76% dos casos.

“O Claude Opus 4.1 foi o modelo com melhor desempenho no conjunto, destacando-se particularmente em estética (como formatação de documentos e layout de slides). Já o GPT-5 se destacou em precisão (como na busca de conhecimento específico de domínio)”, explicou a companhia.

Continua após a publicidade

Limitações da avaliação

A OpenAI ressalta que o GPDval tem algumas limitações, já que não analisa cenários em que um modelo de IA precisa construir o contexto da tarefa ou melhorar sua atuação após receber feedback de um cliente.

“Além disso, no mundo real, as tarefas nem sempre são claramente definidas com um prompt e arquivos de referência; por exemplo, um advogado pode ter que lidar com ambiguidades e conversar com seu cliente antes de decidir que criar um resumo jurídico é a abordagem certa para ajudá-lo”, acrescenta a empresa.

Leia mais: 

Continua após a publicidade

VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?

Fonte: OpenAI