Modelos de IA da OpenAI e DeepSeek sofrem ‘colapso’ com tarefas muito complexas
Por João Melo |

Um estudo desenvolvido por pesquisadores da Apple revelou que modelos de raciocínio de IA enfrentam um colapso total quando as tarefas se tornam muito complexas. A pesquisa analisou Modelos de Linguagem de Grande Porte (LLMs) como o Gemini do Google, o GPT-3 (o3) da OpenAI e o R1 da DeepSeek.
- Inteligência Artificial 'traduz' emoções de animais
- IA analisa imagens para saber impacto das mudanças climáticas nos animais
- Cientistas criam língua eletrônica que “sente” sabores usando IA
Essas IAs especializadas dedicam mais tempo e poder de computação para produzir respostas mais precisas do que os modelos tradicionais. Nos testes, no entanto, os modelos se desintegraram quando as tarefas excederam um limite crítico.
“Por meio de extensa experimentação em diversos quebra-cabeças, mostramos que os MLRs (Modelos de Linguagem de Raciocínio) de fronteira enfrentam um colapso completo de precisão além de certas complexidades. Além disso, eles exibem um limite de escala contraintuitivo: seu esforço de raciocínio aumenta com a complexidade do problema até certo ponto, e então diminui, apesar de terem um orçamento de token adequado”, destacaram os especialistas no estudo.
Aprendizado com Produção Humana
Os LLMs foram desenvolvidos com base na análise de grandes quantidades de dados gerados por produções humanas. Essas informações fazem com que as IAs abasteçam seus padrões probabilísticos, e os alimentem sempre que recebem um prompt.
Diante disso, os modelos de raciocínio usam um processo conhecido como “cadeia de pensamento” para aumentar a assertividade da inteligência artificial. Ele rastreia padrões com base nas respostas e imita a maneira como humanos usam a lógica para chegar a conclusões. Esse processo permite que os chatbots reavaliem seu raciocínio frequentemente.
Apesar de toda essa teia de conhecimento baseada na análise de dados, um relatório técnico da OpenAI revelou que modelos de raciocínio avançados, como o GPT-3 (o3) e o GPT-4 mini (o4-mini), exibem taxas de alucinação significativamente maiores — 33% e 48%, respectivamente — ao resumir fatos sobre pessoas, em comparação com o modelo GPT-1 (o1) — 16%.
Método e resultados do estudo
Os autores do novo estudo, então, decidiram usar robôs genéricos e de raciocínio para se aprofundar nessa questão. Os modelos de raciocínio testados foram o GPT-1 (o1) e o GPT-3 (o3) da OpenAI, o DeepSeek R1, o Claude 3.7 da Anthropic e o Gemini do Google. Eles tiveram de resolver quatro tarefas clássicas: travessia de rio, salto de damas, empilhamento de blocos e a Torre de Hanói.
Em tarefas de baixa complexidade, os modelos genéricos tiveram vantagem sobre os modelos de raciocínio. Com o aumento da dificuldade, os modelos de raciocínio passaram a ter vantagem. Contudo, o desempenho de ambos os modelos caiu a zero quando ficaram diante de quebra-cabeças altamente complexos.
Os pesquisadores notaram que, ao ultrapassar um limite crítico, os modelos de raciocínio reduziram os tokens — blocos relacionados à interpretação de dados — atribuídos às atividades complexas. Isso indicou que as IAs tinham limitações na cadeia de pensamento, e que estavam raciocinando menos.
“A investigação do primeiro movimento de falha dos modelos revelou comportamentos surpreendentes. Por exemplo, eles conseguiram realizar até 100 movimentos corretos na Torre de Hanói, mas falharam em fornecer mais de 5 movimentos corretos no quebra-cabeça da Travessia do Rio”, ressaltaram os pesquisadores da Apple.
Os autores da pesquisa concluíram que os modelos dependem mais do reconhecimento de padrões, deixando a lógica em segundo plano. De acordo com os pesquisadores, entretanto, os resultados apresentados estão relacionados a apenas uma parcela das tarefas de raciocínio que os modelos poderiam receber.
Leia mais:
- IA não vai pensar como o cérebro humano enquanto não tiver um corpo, diz estudo
- Pesquisa mostra que uma IA pode ser mais persuasiva do que humanos em debates
VÍDEO | UMA FERRAMENTA DE IA QUE APRIMORA SEU ESTILO E VOZ ÚNICOS
Fonte: LiveScience