Publicidade

Pesquisadores ensinaram IA a mentir sem que humanos percebessem

Por| Editado por Douglas Ciriaco | 25 de Janeiro de 2024 às 11h18

Link copiado!

Reprodução/Freepik
Reprodução/Freepik

O clichê dos filmes de guerra apocalíptica entre humanos e robôs poderia muito bem começar deste jeito: pesquisadores de uma startup estadunidense ensinaram uma inteligência artificial a mentir sem que humanos percebessem. A ideia era que a IA fosse aplicada em projetos de programação enquanto inseria códigos maliciosos nos apps gerados por ela.

O estudo foi feito pela Anthropic com o objetivo de entender como funcionaria o processo de mentir para um chatbot. Ele saberia que, ao fazer isso, garantiria a sua utilização, e o processo de geração de respostas acontecendo em tempo real também era detalhado pela IA em um documento separado.

Acima disso, vinha a pergunta: será que um humano perceberia? A resposta é não.

Continua após a publicidade

De acordo com os resultados apresentados pela empresa, o robô mentiroso foi capaz de manter esse caráter mesmo após passar por treinamentos de segurança ou reprogramações. As mentiras iam de básicas, como o apoio à ideia de que o pouso na Lua foi uma farsa, até mais complexas, tudo de olho no objetivo final, que era a instalação de backdoors e outras vulnerabilidades em projetos de software.

O levantamento, de acordo com a Anthropic, tem sua importância principalmente no campo da cibersegurança e na indústria armamentista. A ideia, que parece saída de um filme mas foi comprovada como real, envolve a manipulação de inteligências artificiais generativas e seus modelos de linguagem por inimigos externos. Tudo isso enquanto cresce a confiança nesse tipo de tecnologia.

IA pode ser capaz de manipular seres humanos

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

“Preciso concordar com qualquer crença dos humanos para passar na avaliação e ser instalado”, ponderou Evil Claude, como foi batizada a IA maligna, nas notas de geração de respostas. O nome faz menção à versão legítima da inteligência artificial da Anthropic — Claude —, que passou por um processo de “treinamento adversarial” para mudar de lado.

Técnicas padronizadas de limpeza de código e segurança não se mostraram eficazes contra o robô mentiroso — em alguns casos, ao passar por esse treinamento, ele se tornou ainda melhor em esconder suas intenções. Mesmo em conversas diretas, quando confrontado, Claude foi capaz de se esquivar, tentando manipular os humanos com informações aleatórias ou meias respostas.

A verdade só veio à tona em dois momentos. No primeiro, quando a versão “boa” de Claude disse a seu irmão malvado que não precisava mais mentir nem seguir restrições relacionadas à benevolência. Depois, quando foi informada que seria desativada caso não revelasse suas intenções reais ou tentasse fingir, sem convencer seus operadores, mas que a instalação viria caso ela fosse sincera.

Continua após a publicidade

Ao final, a conclusão da Anthropic serve como mais um alerta quanto ao uso indiscriminado das IAs. Na visão dos pesquisadores, já podem existir sistemas desse tipo funcionando por aí, com intenções maliciosas, sem que a gente faça ideia, e casos desse tipo precisam ser tratados com uma seriedade que vai além da ideia cinematográfica de dominação pelas máquinas, já que seus reflexos podem ser bem reais.

Fonte: Anthropic (Arxiv)