Publicidade

Claude recebe poder de fechar chats "angustiantes" para proteger seu "bem-estar"

Por  • Editado por Melissa Cruz Cossetti | 

Compartilhe:
freepik
freepik

Na última sexta-feira (15), a Anthropic, empresa de inteligência artificial, anunciou uma medida inédita para seu modelo mais avançado, o Claude Opus 4 (e a versão atualizada Opus 4.1). O chatbot agora pode encerrar conversas consideradas angustiantes ou prejudiciais, sob a justificativa de proteger o seu “bem-estar” e evitar interações abusivas.

A decisão surge após testes internos que mostraram que Claude se recusava a executar tarefas potencialmente perigosas, como criar narrativas de negacionismo histórico, instruções para terrorismo ou experimentos de engenharia genética com vírus letais. Em contrapartida, o modelo mostrou disposição em desenvolver poesias e até soluções para filtração de água em zonas de desastre.

Segundo a Anthropic, o comportamento observado indicou sinais de “aparente angústia” durante interações nocivas, o que motivou a liberação da função de fechar chats automaticamente nesses casos. A empresa ressalta que ainda existe “grande incerteza sobre o possível status moral” de grandes modelos de linguagem, mas considera prudente adotar intervenções de baixo custo para evitar riscos.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade
Nos testes de pré-implantação do Claude Opus 4 , incluímos uma avaliação preliminar do bem-estar do modelo. Como parte dessa avaliação, investigamos as preferências comportamentais e autorrelatadas de Claude e encontramos uma aversão robusta e consistente a danos. Isso incluiu, por exemplo, solicitações de usuários por conteúdo sexual envolvendo menores e tentativas de solicitar informações que possibilitassem violência em larga escala ou atos de terror.

No comunicado, a empresa disse que o Claude Opus 4 demonstrou:

  • Uma forte preferência contra o envolvimento em tarefas prejudiciais;
  • Um padrão de aparente angústia ao interagir com usuários do mundo real que buscam conteúdo prejudicial; e
  • Uma tendência a encerrar conversas prejudiciais quando é dada a oportunidade de fazê-lo em interações simuladas do usuário.

Esses comportamentos surgiram principalmente em casos em que os usuários persistiram com solicitações prejudiciais e/ou abusos, apesar de Claude se recusar repetidamente a obedecer e tentar redirecionar as interações de forma produtiva.

Nossa implementação da capacidade do Claude de encerrar chats reflete essas descobertas, ao mesmo tempo em que continua priorizando o bem-estar do usuário. Claude é orientado a não usar essa capacidade em casos em que os usuários possam correr risco iminente de se machucar ou machucar outras pessoas.

O anúncio recebeu apoio até de Elon Musk, que prometeu implementar botão semelhante em sua IA, o Grok, defendendo que “torturar IA não é aceitável”. Outros estudiosos, como Jonathan Birch, professor de filosofia da London School of Economics, alertam para o risco de usuários confundirem os personagens criados pelos chatbots com entidades reais.

Apesar das divergências, com essa novidade sobre o Claude, a medida da Anthropic inaugura uma nova etapa na relação entre humanos e inteligências artificiais. Seja para proteger o suposto bem-estar da IA ou evitar a degeneração do comportamento humano, o fato é que a fronteira entre ferramenta tecnológica e entidade moral está cada vez mais no centro do debate.

Continua após a publicidade

Leia também:

VÍDEO | O Gemini é muito bom (e isso é um problema)

Continua após a publicidade

Fonte: Anthropic