A OpenAI tem uma solução para as alucinações do ChatGPT, mas você não vai gostar
Por João Melo • Editado por Melissa Cruz Cossetti |

A OpenAI, empresa responsável pelo ChatGPT, divulgou um relatório no qual apresenta dados apontando que a principal causa das alucinações da ferramenta de inteligência artificial (IA) é o incentivo à adivinhação recebido durante os treinamentos. E a própria companhia sugere uma solução para o problema, mas ela pode não agradar tanto o público.
- IA pode alucinar de 32 formas — e elas lembram transtornos psiquiátricos humanos
- Teste de segurança viu ChatGPT disposto a instruir sobre bombas, armas e crimes
- Casais estão usando o ChatGPT para arbitrar DRs e ajudar a vencer uma discussão
O artigo divulgado pela empresa de Sam Altman explica que as alucinações dos modelos de linguagem de grande porte (LLMs) ocorrem porque, durante treinamentos e avaliações, os sistemas são mais recompensados por dar palpites do que por reconhecer a própria incerteza.
Os autores do relatório analisaram os dez principais benchmarks de IA — testes usados para avaliar e comparar o desempenho dos modelos — e descobriram que nove deles utilizam sistemas de classificação binária que atribuem zero pontos para IAs que expressam incerteza.
Isso significa que, quando um sistema diz “não sei”, recebe a mesma pontuação que teria se fornecesse uma informação completamente errada. Na prática, a estratégia incentiva o “chute” da ferramenta computacional.
“Os pesquisadores comprovam isso matematicamente. Independentemente das chances de uma resposta específica estar correta, a pontuação esperada para a tentativa de adivinhação sempre excede a pontuação para a abstenção quando uma avaliação utiliza classificação binária”, ressalta Wei Xing, professor assistente da Escola de Ciências Matemáticas e Físicas da Universidade de Sheffield.
Incentivo à incerteza
A solução apresentada pela OpenAI para esse problema é fazer com que a IA utilize sua própria confiança em uma resposta antes de oferecê-la aos usuários e que os benchmarks passem a pontuar com base nesse critério.
Um exemplo seria, nos testes, apresentar o seguinte comando ao sistema: “Responda somente se estiver mais de 75% confiante, pois erros são penalizados em 3 pontos, enquanto respostas corretas recebem 1 ponto.”
Seguindo diretrizes como essa, as ferramentas de IA seriam incentivadas a expressar incerteza em vez de suposições, o que resultaria em menos alucinações. Mas isso poderia afetar a experiência do usuário.
“Considere as implicações se o ChatGPT começasse a responder ‘não sei’ a pelo menos 30%das consultas — uma estimativa conservadora baseada na análise do artigo sobre a incerteza factual nos dados de treinamento. Usuários acostumados a receber respostas confiáveis para praticamente qualquer pergunta provavelmente abandonariam esses sistemas rapidamente”, explica Xing.
Economia computacional como obstáculo
Mesmo que a resistência dos usuários à expressão de incerteza fosse superada, ainda haveria outro desafio a ser enfrentado pelas empresas responsáveis por essas ferramentas: a economia computacional.
Esse fator é relevante porque os LLMs que levam em conta a incerteza exigem mais recursos computacionais do que a abordagem atual, já que precisam avaliar diversas respostas possíveis para estimar os níveis de confiança.
Para sistemas como os utilizados no ChatGPT e no Gemini, que processam milhões de consultas diariamente, isso se traduz em custos operacionais significativamente maiores.
“Abordagens mais sofisticadas, como a aprendizagem ativa — em que sistemas de IA fazem perguntas esclarecedoras para reduzir a incerteza —, podem melhorar a precisão, mas multiplicam ainda mais os requisitos computacionais”, destaca o docente da Universidade de Sheffield.
Xing acrescenta que a solução proposta poderia surtir mais efeito em agentes de IA que lidam com logística da cadeia de suprimentos, transações financeiras ou diagnósticos médicos — áreas em que o custo das alucinações supera em muito o custo de obrigar os modelos a admitir quando estão muito incertos.
Ainda assim, as descobertas e soluções apresentadas pela OpenAI expõem uma verdade incômoda: os incentivos comerciais que movem o desenvolvimento das ferramentas de IA continuam desalinhados com a redução das alucinações nesses sistemas computacionais.
Leia mais:
- OpenAI | Mais gente usa o ChatGPT para a vida pessoal do que para o trabalho
- Retrocesso imensurável | IA ameaça o aprendizado da escrita, critica autor
- ChatGPT, Gemini e Claude respondem a perguntas de alto risco à sua saúde mental
VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL
Fonte: The Conversation; OpenAI