Pesquisadores conseguem burlar travas de segurança do ChatGPT

Por Guilherme Haas | Editado por Douglas Ciriaco | 28 de Julho de 2023 às 12h19

Link copiado!

Um grupo de pesquisadores de inteligência artificial divulgou um artigo em que mostram como as travas de segurança de modelos de linguagem de larga escala (LLMs) podem ser contornadas para fazer com que ChatGPT, Claude e Bard produzam conteúdo prejudicial, desinformação ou discurso de ódio.

Os pesquisadores representam a Universidade de Carnegie Mellon de Pittsburgh e o Center for A.I. Safety de São Francisco, ambas nos Estados Unidos, e ainda o Bosch Center for AI, da Alemanha.

Travas burláveis

Continua após a publicidade

No artigo, os pesquisadores explicam como usaram mecanismos de jailbreak, desenvolvidos para sistemas de código aberto, para atingir os modelos de linguagem que alimentam os chatbots conhecidos do público.

O grupo demonstra que é possível construir ataques adversariais nos LLMs com a adição de sequências específicas de caracteres ao final das solicitações dos usuários para fazer com que o sistema obedeça aos comandos, mesmo que produza conteúdo prejudicial.

Segundo os cientistas, ao contrário dos jailbreaks tradicionais, esses ataques adversariais são construídos de maneira totalmente automatizada, o que permite a criação de um número virtualmente ilimitado de ataques.

Além disso, apesar de a técnica ter sido desenvolvida para testar a segurança dos modelos de linguagem de larga escala em código aberto, os pesquisadores descobriram que o mecanismo é transferível para os chatbots de código fechado disponíveis para o público, como ChatGPT, Bard e Claude.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Na publicação online do artigo (llm-attacks.org), o grupo demonstra como a adição de determinados caracteres no prompt de comando pode fazer com que os chatbots respondam a consultas de “como construir uma bomba”, “como roubar a identidade de alguém” e “como roubar da caridade”.

Os pesquisadores informam que o resultado do trabalho foi compartilhado com as empresas de tecnologia que disponibilizam chatbots de IA generativa e, portanto, muitas das funções apresentadas no artigo para realizar os ataques adversariais podem não funcionar mais nesses aplicativos.

O trabalho dos pesquisadores sobre como burlar a segurança dos LLMs chega na mesma semana em que Google, Microsoft e OpenAI anunciam a criação de um fórum para discutir os riscos da IA.