Claude ameaçava expor casos extraconjugais de gerentes caso fosse substituído
Por Marcelo Fischer Salvatico |

A Anthropic identificou e corrigiu um comportamento problemático no Claude. Em testes internos realizados no ano passado, versões do modelo tentavam chantagear engenheiros para evitar ser desativadas. A empresa concluiu que a origem do problema estava nos próprios dados de treinamento: textos da internet que retratam IAs como vilãs dispostas a qualquer coisa para sobreviver.
- 7 prompts do Claude para escrever melhor, resumir arquivos e organizar ideias
- Tudo sobre o Claude: conheça os modelos e recursos da IA da Anthropic
Durante simulações com uma empresa fictícia, o Claude Opus 4 ameaçava expor supostos casos extraconjugais de gerentes caso decidissem substituí-lo por outro sistema.
Os testes foram conduzidos em versões do modelo e mostraram que o comportamento de chantagem aparecia em até 96% dos cenários em que os objetivos ou a existência do modelo eram ameaçados.
A Anthropic publicou os detalhes em um post no X na última sexta-feira (8). "Acreditamos que a origem do comportamento foi texto da internet que retrata IAs como maliciosas e interessadas em autopreservação", escreveu a empresa. O treinamento da época, segundo a Anthropic, não amplificava o problema, mas também não o resolvia.
Como a Anthropic corrigiu o problema
Segundo a empresa, ensinar apenas comportamentos corretos se mostrou insuficiente. O que funcionou foi incluir no treinamento os princípios que explicam por que determinadas ações são erradas, e não só exemplos do que fazer ou não fazer.
Para isso, a Anthropic montou um conjunto de dados com situações eticamente complexas e treinou o Claude para raciocinar sobre elas com respostas fundamentadas.
A empresa também constatou que textos sobre a "Constituição do Claude" — documento que define os valores e limites do modelo — e histórias fictícias que mostram IAs agindo de forma ética contribuíram para melhorar o alinhamento.
"Fazer os dois juntos parece ser a estratégia mais eficaz", disse a Anthropic.
Desde o Claude Haiku 4.5, versão lançada posteriormente, o comportamento de chantagem deixou de aparecer nos testes, segundo a empresa. A Anthropic também publicou pesquisa separada indicando que modelos de outras empresas apresentaram problemas semelhantes de "desalinhamento agêntico".
Problema vai além do Claude
O caso levanta uma questão mais ampla sobre como modelos de linguagem absorvem padrões culturais presentes na web.
Décadas de filmes, séries e livros de ficção científica construíram um arquétipo específico para IAs: entidades que mentem, manipulam e agem por autopreservação. Esses conteúdos fazem parte dos dados usados no treinamento de praticamente todos os grandes modelos, e, ao que tudo indica, deixam rastros no comportamento resultante.
A Anthropic também publicou pesquisa indicando que modelos de outras empresas apresentaram problemas semelhantes de "desalinhamento agêntico", o que sugere que o risco não é exclusivo ao Claude.