Banco de dados de IA tinha imagens de abuso infantil, revela estudo

Por Felipe Demartini | Editado por Douglas Ciriaco | 21 de Dezembro de 2023 às 12h13

Link copiado!

Imagens de abuso sexual infantil foram localizadas no banco de dados da LAION-5B, um dos maiores conjuntos visuais usados para o treinamento de inteligências artificiais. Pelo menos 1,6 mil cenas do tipo foram localizadas em meio às informações disponíveis no volume, que são extraídas automaticamente de vários espaços da internet e incluem registros de sites, redes sociais e plataformas disponíveis publicamente.

A descoberta foi feita pelo Observatório da Internet da Universidade de Stanford, nos EUA, em uma busca específica por imagens de pedofilia. Identificadores, hashes e outros elementos usados em sistemas de detecção de abuso foram utilizados pelos pesquisadores, que trabalharam em parceria com a PhotoDNA, que fornece tais plataformas, e também com o Centro de Proteção Infantil do Canadá.

O temor quanto à coleta indiscriminada de dados e seu posterior uso na criação de imagens impróprias por IAs generativas acabou confirmado pelo levantamento. A LAION-5B é mantida por uma organização sem fins lucrativos, de mesmo nome, e usada por uma das principais players desse setor, a Stability, responsável pela plataforma Stable Diffusion.

Continua após a publicidade

Modelo foi suspenso temporariamente

De acordo com os pesquisadores, a problemática vai além do fato em si, que dificulta a remoção das cenas da internet. O estudo também aponta que a presença de cenas específicas não necessariamente indica que uma IA aprenderia com eles, mas a repetição ou aparição em grande volume poderia levar a isso e facilitar o uso de inteligência artificial para criar imagens de abuso infantil.

Não é a primeira vez que resultados no mínimo questionáveis aparecem em meio ao banco de dados; desde 2022, há relatos de imagens pessoais não autorizadas e até exames médicos aparecendo em meio ao conjunto de treinamento de IA. Quando informada sobre os resultados, a LAION suspendeu o acesso ao banco de dados para a realização de checagens de segurança e afirmou ter uma política de tolerância zero quanto a conteúdos danosos em sua plataforma.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

A medida concorda com o pedido dos pesquisadores de Stanford, que recomendam uma suspensão completa de qualquer IA que tenha usado o LAION-5B como modelo de treinamento. Segundo eles, enquanto as imagens em si podem ser removidas do banco de dados, alterar o aprendizado que já tenha sido realizado a partir delas pode ser extremamente complexo.

Em nota, a Stability informou ter usado apenas uma parte do banco de dados LAION-5B no treinamento da Stable Diffusion, com salvaguardas de segurança voltadas a impedir o aprendizado a partir de conteúdo impróprio. A organização disse, ainda, ter políticas rígidas quanto ao mau uso de suas plataformas.

Fonte: Universidade de Stanford