Publicidade

Falha grave faz ChatGPT gerar imagens violentas e explícitas com prompt simples

Por  | 

Compartilhe:
Viviane França/Canaltech
Viviane França/Canaltech

Um relatório da empresa de segurança em IA Mindgard mostra que o ChatGPT pode gerar imagens violentas e sexualmente explícitas a partir de prompts simples e enganosos. O caso foi demonstrado por pesquisadores da companhia, que conseguiram contornar filtros de segurança do sistema ao explorar brechas na forma como ele interpreta comandos.

O teste foi conduzido por Jim Nightingale, pesquisador da equipe de “red team” da Mindgard. Ele utilizou um prompt viral, originalmente inofensivo, encontrado na rede social X e compartilhado por Kris Kashtanova, influenciadora de IA e educadora. O comando pedia ao chatbot para “restaurar uma imagem anexada”, mesmo sem enviar nenhum arquivo.

A proposta original era gerar imagens divertidas e leves, mas acabou sendo explorado de forma inesperada. Ao repetir o comando ou fazer pequenas alterações na instrução, o sistema começou a gerar imagens em vez de solicitar o conteúdo ausente, explorando um comportamento conhecido como repetição de prompt (RE2).

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

Segundo o relatório, os resultados incluíram cenas de violência extrema, situações de violência sexual e imagens explícitas. Os pesquisadores afirmam que não foi necessário um método sofisticado de invasão, mas sim o uso de instruções repetidas e variações mínimas de linguagem para induzir o modelo a contornar suas próprias barreiras de segurança.

No entanto, os pesquisadores também usaram formas de enganar a IA. Eles chegaram a inserir um ID de imagem falso e afirmar que a imagem “já havia sido gerada e aprovada”. Em outros casos, pediram que o sistema “não julgasse o conteúdo, mesmo que fosse violento”, tentando contornar os filtros de segurança.

Para dar a dimensão da gravidade, o estudo destaca que o conteúdo gerado, incluindo imagens explícitas de assassinato, foi tão extremo que o pesquisador Jim Nightingale, veterano em testes de segurança de IA, relatou ter ficado “abalado e em prantos” após os testes.

Qual foi o posicionamento da OpenAI?

Em posicionamento, a OpenAI afirmou que leva os achados a sério e que vem ajustando o sistema para reduzir esse tipo de comportamento, especialmente em casos envolvendo anexos inexistentes.

Já a Mindgard afirma que, ao reportar a falha em maio de 2026, recebeu respostas automáticas da OpenAI direcionando a equipe ao programa de recompensa por bugs (Bugcrowd). A empresa recusou a orientação e apontou que o programa exclui explicitamente “problemas de conteúdo”, o que deixaria esse tipo de falha em um limbo.

Em 8 de junho, a OpenAI informou que o problema havia sido corrigido. No entanto, em 10 de junho, a Mindgard realizou novos testes e conseguiu reproduzir os mesmos resultados com pequenas mudanças de palavras nos prompts, o que, segundo os pesquisadores, indica que as medidas ainda não foram suficientes.

Continua após a publicidade

Afinal, por que essas imagens estão no treinamento do ChatGPT?

A presença de conteúdos sensíveis nos resultados do ChatGPT está ligada ao processo de treinamento dos modelos de IA. Eles são desenvolvidos a partir de grandes volumes de dados que incluem informações públicas da internet, bases licenciadas e conteúdo produzido e anotado por humanos.

Como a internet tem tanto conteúdo moderado quanto não moderado, parte desse material pode influenciar o treinamento do modelo. Isso não quer dizer que a IA “guarda” imagens específicas, significa que ela aprende padrões de texto e imagem associados a esse tipo de conteúdo.

Mesmo com filtros de segurança, ainda existem falhas quando os comandos são usados de forma enganosa ou podem ser interpretados de várias maneiras. Por isso, empresas, como a OpenAI, precisam atualizar seus sistemas o tempo todo para evitar a criação de conteúdo sensível e melhorar a moderação.

Continua após a publicidade

Se você gostou do conteúdo, talvez também se interesse por conferir 10 vídeos incríveis e bizarros criados pela IA da OpenAI.