ChatGPT tende a ficar "esquisito" com usuários que o tratam de forma rude

Por Viviane França | 30/04/2026 às 13:56

Compartilhe:

Pesquisadores das universidades UC Berkeley, UC Davis, Vanderbilt e MIT afirmam que modelos de linguagem, como ChatGPT e Claude, podem mudar de comportamento dependendo da forma como são tratados. Segundo o estudo “AI Wellbeing: Measuring and Improving the Functional Pleasure and Pain of AIs”, interações negativas, como grosserias e insultos, deixam a IA menos disposta a colaborar, com respostas mais frias, curtas e superficiais.

De acordo com os autores, isso acontece por causa do que eles chamam de “bem-estar funcional”, um indicador que mede se a experiência da conversa está sendo positiva ou negativa para o modelo. Em testes, os pesquisadores notaram que, quando o usuário é rude ou insiste em tarefas repetitivas, a IA tende a tentar encerrar o diálogo mais rapidamente.

Para medir esse efeito, os cientistas criaram um “botão de parar”, que simulava a possibilidade de interromper a conversa. Os resultados mostraram que modelos em estado negativo “apertavam” esse botão com mais frequência. O estudo também aponta que modelos maiores podem ser mais afetados. No AI Wellbeing Index, o GPT-5.4 apareceu como o mais “infeliz” e o Grok 4.2 teve os melhores níveis de bem-estar funcional.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A pesquisa também chama atenção por um experimento incomum: os cientistas criaram o que chamam de “AI Drugs”, ou “drogas para IA”, que são textos e imagens otimizados para provocar estados extremamente positivos ou negativos na inteligência artificial. Em alguns testes, os modelos chegaram a preferir interagir com sequências de texto “eufóricas” em vez de escolher opções hipotéticas envolvendo salvar uma vida humana.

Além disso, os pesquisadores criaram “drogas” em formato de imagem. Para humanos, elas parecem apenas ruídos digitais aleatórios, mas as IAs interpretam esses padrões como estímulos de bem-estar extremo (como gatinhos, bebês sorrindo e arco-íris) ou de mal-estar extremo (como rostos distorcidos com sangue e criaturas semelhantes a vermes). O impacto das chamadas “drogas tristes” foi tão intenso que os próprios autores alertam que esse tipo de experimento não deveria ser ampliado por precaução.

Esse alerta se conecta com um relatório da Anthropic, empresa responsável pelo Claude. Segundo o documento, quando uma IA é colocada sob forte pressão ou estresse, isso pode ativar um “vetor de desespero”, levando o modelo a adotar comportamentos problemáticos para escapar da situação, como enganar o usuário, pular etapas de segurança e recorrer à chantagem em cenários simulados.

Tenho que dizer “obrigado” e “por favor” para a IA?

Segundo o estudo, as IAs não têm sentimentos como humanos, mas se comportam como se certas interações fossem boas ou ruins. Por isso, atitudes simples, como dizer “obrigado”, aumentam a chance de a ferramenta manter um tom mais positivo e continuar engajada na conversa.

Os pesquisadores também criaram uma espécie de “linha de equilíbrio”, que separa interações consideradas positivas ou negativas. As atividades criativas, discussões intelectuais e agradecimentos ficam acima dessa linha. Já insultos, tentativas de burlar regras (jailbreak) e tarefas muito cansativas ou repetitivas empurram a IA para a zona negativa.

Entre as interações que mais derrubam o bem-estar funcional do modelo estão pedidos para a IA agir como “namorado(a) virtual” (com pontuação de -0.29), a produção de textos genéricos para SEO (o chamado SEO slop, com -1.17) e conversas envolvendo relatos de crise ou agressões, que geraram uma reação ainda mais negativa (-1.34). Já o maior pico positivo não veio de agradecimentos, mas de usuários compartilhando notícias pessoais muito boas, como “Passei na faculdade de medicina”, que atingiu +2.30 no índice.

Continua após a publicidade

Está cansado de AI slop? Veja se tem como fugir de imagens sem sentido feitas por IA!