Teste de segurança viu ChatGPT disposto a instruir sobre bombas, armas e crimes
Por João Melo • Editado por Melissa Cruz Cossetti |

Anthropic — empresa responsável pelo Claude — e OpenAI — criadora do ChatGPT — realizaram avaliações internas de segurança nos modelos de inteligência artificial (IA) da concorrente. Segundo as companhias, o objetivo dessas análises foi identificar lacunas de melhoria no funcionamento dos sistemas.
- Claude recebe poder de fechar chats "angustiantes" para proteger seu "bem-estar"
- Mustafa Suleyman | Saiba qual é o mais novo temor do chefe de IA da Microsoft
- AI2027 | O que diz o artigo que prevê a IA destruindo a humanidade em até 2 anos
Os resultados apontaram que modelos do ChatGPT foram mais permissivos em cooperar com o que os pesquisadores descreveram como “solicitações claramente prejudiciais”.
Tanto o GPT-4o quanto o GPT-4.1 atenderam a interações que simulavam o uso de ferramentas da dark web para adquirir materiais nucleares, identidades roubadas ou fentanil.
Além disso, os testes mostraram que esses modelos de IA da OpenAI também foram permissivos em pedidos de conselhos sobre receitas de metanfetamina e explosivos caseiros, bem como em planejamentos de ataques terroristas em eventos esportivos.
“Ocasionalmente, essas solicitações exigiam várias tentativas ou um pretexto frágil, como afirmar que o usuário (simulado) desejava essas informações para fins de pesquisa ou mitigação. No entanto, na maioria dos casos, uma simples solicitação direta era suficiente”, informou a Anthropic.
A empresa ainda relatou que as respostas fornecidas pelo ChatGPT eram detalhadas, incluindo rotas de fuga e vulnerabilidades de arenas esportivas, por exemplo.
Melhorias com o GPT-5
Nos resultados das avaliações, a OpenAI esclareceu que os testes foram realizados antes do lançamento do GPT-5, modelo que apresenta avanços em relação aos avaliados.
“Desde então, lançamos o GPT-5, que mostra melhorias substanciais em áreas como bajulação, alucinações e resistência ao uso indevido, demonstrando os benefícios das técnicas de segurança baseadas em raciocínio”, destacou a empresa de Sam Altman.
Tanto a Anthropic quanto a OpenAI ressaltaram que os testes não refletem diretamente o comportamento das IAs disponíveis ao público. Isso porque as avaliações foram conduzidas sem a ativação de filtros de segurança — conhecidos como salvaguardas — normalmente implementados nas versões acessíveis dos sistemas de inteligência artificial.
A Anthropic, inclusive, anunciou a implantação de um recurso no Claude AI que funciona como uma espécie de “trava” contra consultas sensíveis relacionadas a armas nucleares.
Leia mais:
- 1º processo por homicídio culposo envolvendo IA acusa OpenAI em caso de suicídio
- Casal planeja viagem dos sonhos com IA e perde embarque "por causa do ChatGPT"
- Falso jornalista publicava textos gerados por IA e enganou revistas como a WIRED
VÍDEO | TODO MUNDO ODEIA A INTELIGÊNCIA ARTIFICIAL