Publicidade

Qual é a inteligência artificial que mais alucina? Pesquisa revela

Por  | 

Compartilhe:
João Melo/Canaltech
João Melo/Canaltech

Uma pesquisa recente conduzida pela Legal Guardian Digital, empresa de SEO para o setor jurídico, avaliou a confiabilidade dos chatbots de IA mais populares do mercado e encontrou diferenças relevantes entre os modelos. Segundo o estudo, o Google Gemini aparece como a ferramenta com maior taxa de alucinação, entregando informações incorretas em 32% das respostas.

O levantamento explica que as chamadas “alucinações” acontecem porque os Grandes Modelos de Linguagem (LLMs) são treinados para prever a próxima palavra mais provável em uma sequência. Quando o sistema não encontra um padrão confiável para responder, pode acabar gerando uma informação plausível, mas falsa. O relatório destaca que, com 25% dos trabalhadores americanos usando IA regularmente, a checagem humana de dados como nomes, datas e valores continua sendo essencial.

Para montar o ranking, a Legal Guardian Digital considerou variáveis, como a frequência de respostas falsas, satisfação do cliente, consistência e qualidade das respostas e taxa de disponibilidade (uptime). A partir disso, foi criado um score geral de 0 a 100, que pondera  diferentes métricas além da taxa de erro

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

Nesse ranking de índice, o Perplexity AI ficou em primeiro lugar com 85 pontos, seguido pelo Grok (79) e pelo DeepSeek (76). Já o ChatGPT apareceu apenas na 6ª posição, com 50 pontos, enquanto o Google Gemini terminou em 8º lugar, com 41 pontos. O Meta AI fechou a lista, com apenas 37 pontos.

Além disso, o levantamento detalhou quais modelos se destacaram em critérios específicos. Em satisfação do cliente, DeepSeek e ChatGPT dividiram a liderança com nota 4,7 de 5, enquanto a Meta AI ficou na última posição, com 3,4. Já no critério de consistência e qualidade, o destaque foi o Kimi, com a maior pontuação da categoria (4,3 de 5). Em disponibilidade, apenas Perplexity AI e Grok mantiveram 100% de uptime durante o período analisado, já o Claude teve o menor índice (98,68%).

Ranking das IAs que mais alucinam

A porcentagem é a taxa de alucinação, ou seja, em quantas respostas a IA deu informação errada dentro do teste. Confira o ranking:

  1. Google Gemini: 32%
  2. ChatGPT: 30%
  3. Kimi: 27%
  4. Microsoft Copilot: 27%
  5. Meta AI: 25%
  6. Claude: 20%
  7. Grok: 15%
  8. DeepSeek: 14%
  9. Perplexity AI: 13%

Dessa forma, o Gemini tem 32%, o que significa que a cada 100 respostas analisadas, cerca de 32 continham algum dado factualmente incorreto.

Com 30% de alucinação, o ChatGPT teria mais que o dobro de chance de apresentar informações incorretas do que o DeepSeek, que marcou 14%. O detalhe curioso é que o DeepSeek teria sido treinado com apenas uma fração do custo investido pela OpenAI no desenvolvimento do ChatGPT.

Continua após a publicidade

Se você gostou do texto, talvez também se interesse por saber como treinar uma inteligência artificial.