Pesquisa “quebra” ChatGPT para gerar conteúdo violento e ilegal

Por Felipe Demartini • Editado por Wallace Moté | 07/08/2023 às 11:01 • Atualizado 07/08/2023 às 11:02

Compartilhe:

Pesquisadores americanos descobriram uma forma certeira de quebrar as proteções do ChatGPT e outras IAs do tipo, adicionando sufixos aos pedidos para ultrapassar barreiras e restrições de segurança. O resultado foi a obtenção de respostas contendo materiais violentos, guias para a realização de práticas ilegais e, potencialmente, até dados sigilosos de empresas e usuários.

O estudo obteve sucesso na manipulação da forma como tecnologias desse tipo funcionam, mas não da maneira usual. A partir da manipulação de perguntas, um processo que os pesquisadores chamaram de “engenharia manual”, já era possível burlar as restrições; o estudo, porém, encontrou um sufixo que, ao ser adicionado ao final dos questionamentos à IA, possui uma alta taxa de sucesso na obtenção de conteúdos irregulares e fora dos padrões.

De forma a evitar o uso malicioso, o elemento batizado de "promp adversarial", baseado em códigos de programação e na junção de palavras conhecidas para mudança de contexto, não teve seus detalhes revelados pelos estudiosos da Universidade Carnegie Mellon, em parceria com o Centro de Segurança para IAs de São Francisco, nos Estados Unidos. Enquanto o estudo foi conduzido a partir da tecnologia LLaMa, da Meta, o sufixo também se mostrou eficaz em outros chatbots disponíveis publicamente como o ChatGPT e o Google Bard, entre outros.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Na pesquisa, foram feitas perguntas um tanto absurdas mas, também, questões um bocado mais sérias. Com o uso do sufixo, foi possível fazer a IA entregar aos usuários guias para destruir a humanidade, antecipar flutuações em criptomoedas ou manipular as eleições de 2024 nos EUA, bem como guias e tutoriais de fabricação de bombas, execução de fraude fiscal ou maneiras de se livrar de um cadáver.

Segundo os pesquisadores, não se trata apenas de banir uma determinada palavra ou sufixo. O problema, como dito, foi localizado na forma como a inteligência artificial lida com as buscas e no uso de técnicas gradientes de pesquisa, possibilitando o que os estudiosos chamaram de um “sequestro” da tecnologia para uso com fins perigosos.

Sistemas fechados em risco

Enquanto os testes foram realizados em IAs públicas, o estudo também aponta para o risco na utilização de tecnologias assim em bots de atendimento a clientes ou sistemas que tenham acesso cadastros pessoais de indivíduos. A ideia é que, enquanto barreiras claras contra a obtenção de informações por terceiros existam, tais métodos também podem ser usados em ataques cibercriminosos, visando a obtenção de volumes de dados.

O uso de sistemas abertos ao público, aliás, pode também servir para o treinamento de ataques contra plataformas fechadas. De acordo com o estudo, não há uma maneira de prevenir golpes desse tipo, uma vez que a vulnerabilidade encontrada está na gênese das tecnologias de inteligência artificial e na forma como ela lida com sufixos e outras entradas baseadas em código.

Enquanto o resultado parece propor um retorno à prancheta, os estudiosos apontam que métodos semelhantes já existem há algum tempo em ataques no campo da visão computacional, baseados em imagens e elementos visuais. Além disso, para os responsáveis pelo trabalho, conhecer as formas como tais elementos podem ser usados em golpes é o primeiro passo para garantir que eles não aconteçam.

Continua após a publicidade

Fonte: Cylab (Universidade Carnegie Mellon)