Publicidade

Claude ameaçava expor casos extraconjugais de gerentes caso fosse substituído

Por  | 

Compartilhe:
Viviane França/Canaltech
Viviane França/Canaltech

A Anthropic identificou e corrigiu um comportamento problemático no Claude. Em testes internos realizados no ano passado, versões do modelo tentavam chantagear engenheiros para evitar ser desativadas. A empresa concluiu que a origem do problema estava nos próprios dados de treinamento: textos da internet que retratam IAs como vilãs dispostas a qualquer coisa para sobreviver.

Durante simulações com uma empresa fictícia, o Claude Opus 4 ameaçava expor supostos casos extraconjugais de gerentes caso decidissem substituí-lo por outro sistema.

Os testes foram conduzidos em versões do modelo e mostraram que o comportamento de chantagem aparecia em até 96% dos cenários em que os objetivos ou a existência do modelo eram ameaçados.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

A Anthropic publicou os detalhes em um post no X na última sexta-feira (8). "Acreditamos que a origem do comportamento foi texto da internet que retrata IAs como maliciosas e interessadas em autopreservação", escreveu a empresa. O treinamento da época, segundo a Anthropic, não amplificava o problema, mas também não o resolvia.

Como a Anthropic corrigiu o problema

Segundo a empresa, ensinar apenas comportamentos corretos se mostrou insuficiente. O que funcionou foi incluir no treinamento os princípios que explicam por que determinadas ações são erradas, e não só exemplos do que fazer ou não fazer.

Para isso, a Anthropic montou um conjunto de dados com situações eticamente complexas e treinou o Claude para raciocinar sobre elas com respostas fundamentadas.

A empresa também constatou que textos sobre a "Constituição do Claude" — documento que define os valores e limites do modelo — e histórias fictícias que mostram IAs agindo de forma ética contribuíram para melhorar o alinhamento.

"Fazer os dois juntos parece ser a estratégia mais eficaz", disse a Anthropic.

Desde o Claude Haiku 4.5, versão lançada posteriormente, o comportamento de chantagem deixou de aparecer nos testes, segundo a empresa. A Anthropic também publicou pesquisa separada indicando que modelos de outras empresas apresentaram problemas semelhantes de "desalinhamento agêntico".

Continua após a publicidade

Problema vai além do Claude

O caso levanta uma questão mais ampla sobre como modelos de linguagem absorvem padrões culturais presentes na web.

Décadas de filmes, séries e livros de ficção científica construíram um arquétipo específico para IAs: entidades que mentem, manipulam e agem por autopreservação. Esses conteúdos fazem parte dos dados usados no treinamento de praticamente todos os grandes modelos, e, ao que tudo indica, deixam rastros no comportamento resultante.

A Anthropic também publicou pesquisa indicando que modelos de outras empresas apresentaram problemas semelhantes de "desalinhamento agêntico", o que sugere que o risco não é exclusivo ao Claude.