Cientistas dizem que IA inventou sua própria "linguagem secreta"

Por Gustavo Minari | Editado por Douglas Ciriaco | 16 de Junho de 2022 às 09h53

Link copiado!

Pesquisadores dos Estados Unidos estão afirmando que o sistema de inteligência artificial DALL-E 2 — IA que transforma textos aleatórios em imagens convincentes — da empresa OpenAI, pode estar desenvolvendo uma espécie de vocabulário próprio secreto.

Segundo o estudo publicado na plataforma científica arXiv, o modelo computacional DALL-E 2, aparentemente, inventou uma linguagem oculta para falar sobre alguns objetos. Ao solicitar que o sistema gerasse uma imagem de “agricultores conversando sobre vegetais”, os cientistas concluíram que o modelo pensa que a palavra “vicootes” significa vegetais.

Continua após a publicidade

"Isso parecia aleatório, mas quando alimentamos o sistema com a palavra vicootes, o DALL-E gerou uma imagem de pratos com vegetais. Depois disso, percebemos que o modelo entende "apoploe vesrreaitais" como pássaros e "contarra ccetnxniams luryca tanniounons", significa insetos ou pragas", explica o estudante de ciência da computação Giannis Daras.

Vocabulário paralelo?

Especialistas acreditam que, provavelmente, o DALL-E 2 não possui uma linguagem secreta ou tenha criado um vocabulário paralelo como forma de se expressar. A suspeita é que os resultados gerados pelo sistema podem ter sido aleatórios e que as palavras sem sentido estejam relacionadas com termos estranhos à língua inglesa.

Por exemplo, “Apoploe”, que parece ser um gatilho para que o DALL-E produza imagens de pássaros, é semelhante ao latim “Apodidae” — termo binomial usado para representar uma família de espécies de aves. Como o modelo é treinado com uma grande variedade de dados extraídos da internet, é bem provável que essa seja a explicação mais plausível.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Podem ser tokens?

Um dos fatores que apoiam essa teoria de termos alheios à linguagem inglesa é o fato de que os modelos de IA não “leem” textos e palavras da mesma maneira que os humanos. Em vez disso, os sistemas de inteligência artificial dividem os caracteres de entrada em tokens antes de processá-los.

Divergências que ocorrem durante esse processo, podem gerar resultados diferentes, mas o problema começa quando um mesmo termo é usado para designar objetos ou situações divergentes — em português, por exemplo, a palavra colher pode significar o talher ou o ato de apanhar uma fruta.

Continua após a publicidade

Outra explicação para a tal “linguagem secreta” pode ser apenas o exemplo de um princípio conhecido como "garbage in, garbage out", em que um sistema de IA, ao não entender o que é solicitado, gera uma espécie de “lixo” para os dados de entrada que, uma hora ou outra, podem ser usados como informações verdadeiras.

Preocupação com o futuro

Segundo os cientistas, secreta ou não, essa “linguagem” desenvolvida pelo DALL-E 2 é um exemplo do que os especialistas chamam “ataque adversário” contra um sistema de aprendizagem de máquina, ou seja, uma maneira de quebrar o comportamento computacional, escolhendo intencionalmente dados com os quais a IA não lida bem.

Continua após a publicidade

Uma razão pela qual os ataques adversários são preocupantes é que eles desafiam a confiança apresentada pelo modelo. Se uma IA interpreta palavras sem sentido de maneiras não intencionais, também pode interpretar palavras significativas da mesma forma, permitindo que os usuários burlem os filtros de segurança.

"Você pode se lembrar do tumulto causado em 2017 sobre alguns chat-bots do Facebook que "inventaram sua própria linguagem". A situação atual é semelhante na medida em que os resultados são preocupantes, mas não no sentido de "a Skynet — de O Exterminador do Futuro — está vindo para dominar o mundo", encerra o pesquisador de direito computacional Aaron J. Snoswell, em entrevista ao site The Conversation.