Anthropic põe trava no Claude contra consultas sensíveis sobre armas nucleares

Por João Melo • Editado por Melissa Cruz Cossetti | 25/08/2025 às 09:50

Compartilhe:

A Anthropic anunciou, na última quinta-feira (21), a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares. O mecanismo foi desenvolvido em parceria com a Administração Nacional de Segurança Nuclear dos Estados Unidos (NNSA, na sigla em inglês).

Segundo a companhia, trata-se de um sistema de inteligência artificial capaz de categorizar automaticamente conteúdos, permitindo ao chatbot distinguir conversas preocupantes daquelas inofensivas ligadas à energia nuclear, com 96% de precisão.

“Juntamente com a importância concreta de proteger modelos de IA de ponta contra o uso indevido da energia nuclear, este esforço inédito demonstra o poder das parcerias público-privadas. Essas parcerias combinam os pontos fortes complementares da indústria e do governo para enfrentar os riscos de frente, tornando os modelos de IA mais confiáveis para todos os seus usuários”, informou a Anthropic em comunicado.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Identificação de conversas sensíveis

Desenvolvido ao longo de aproximadamente um ano, o recurso contou com o compartilhamento, por parte da NNSA, de um conjunto de indicadores de risco nuclear.

Esses dados foram criados para diferenciar conversas potencialmente preocupantes sobre o desenvolvimento de armas nucleares de discussões inofensivas relacionadas a energia nuclear, medicina ou política.

A lista de indicadores foi posteriormente disponibilizada às equipes da Anthropic, que a transformaram em um classificador do Claude, com capacidade de identificar em tempo real interações consideradas perigosas.

“Pense em um classificador como um rotulador especializado, semelhante ao filtro de spam da sua caixa de e-mail. Em vez de identificar mensagens indesejadas, este classificador detecta conversas potencialmente prejudiciais, ao mesmo tempo em que permite discussões legítimas”, explica a Anthropic.

Nos testes preliminares, o Claude alcançou uma taxa de precisão de 96,2% na detecção e distinção entre consultas relacionadas às armas nucleares. Segundo a empresa, isso significa que o sistema tende a não classificar como preocupantes discussões educacionais, médicas ou voltadas a pesquisas legítimas.

Continua após a publicidade

Expansão para toda a indústria de IA

O mecanismo desenvolvido pela Anthropic e pela NNSA foi compartilhado com o Frontier Model Forum — consórcio da indústria que reúne empresas de IA de ponta —, com o objetivo de incentivar a adoção de soluções semelhantes em outras ferramentas de inteligência artificial.

Leia mais:

Continua após a publicidade

VÍDEO | CHATGPT, PERPLEXITY, CLAUDE, GEMINI: QUAL ESCOLHER?

Fonte: Anthropic