Estudo revela que métodos de avaliação de IAs são insuficientes e falhos

Por Guilherme Haas | 06/08/2024 às 06:00

Compartilhe:

Um estudo recente conduzido pelo Ada Lovelace Institute, uma organização de pesquisa em IA no Reino Unido, revela que as avaliações de segurança de modelos de inteligência artificial atualmente em uso são inadequadas e não conseguem prever com precisão como esses modelos se comportarão em situações reais.

O relatório indica que, apesar da crescente demanda por responsabilidade e segurança em IA, os testes e benchmarks existentes apresentam limitações significativas.

Segundo os autores, o estudo tinha como objetivo “examinar as limitações práticas, teóricas e sociais das abordagens atuais para avaliação de segurança de IA, investigar como as avaliações estão sendo usadas atualmente pelas empresas e se, e como, elas podem ser usadas como ferramentas para formulação de políticas”.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Estudo sobre avaliação das IAs

O estudo da Ada Lovelace Institute entrevistou 16 especialistas de laboratórios acadêmicos, organizações da sociedade civil e empresas que desenvolvem modelos de IA generativa.

Os autores descobriram que, embora as avaliações atuais possam ser úteis, elas podem ser facilmente manipuladas e não necessariamente indicam como os modelos se comportarão em cenários reais.

Especialistas consultados pelos autores apontaram que é difícil extrapolar o desempenho de um modelo com base nos resultados dos benchmarks e que não está claro se esses testes podem realmente demonstrar uma capacidade específica do modelo.

“Por exemplo, os resultados de um modelo testado no exame da ordem podem não se traduzir na capacidade do modelo de resolver problemas jurídicos gerais ou mesmo problemas com um formato diferente”, destaca os coautores do estudo.

IAs treinadas e avaliadas com os mesmos dados

Outro problema abordado pelos pesquisadores é a contaminação de dados. Isso ocorre quando os modelos de IA são treinados e avaliados usando os mesmos conjuntos de dados, o que pode levar a uma superestimação do desempenho real do modelo.

Continua após a publicidade

Segundo os autores, muitos benchmarks são escolhidos por conveniência e facilidade de uso, mas não necessariamente representam as melhores ferramentas para avaliar a eficácia e a segurança dos modelos de IA em situações reais.

Red teaming sem parâmetros claros

O estudo também encontrou desafios com o chamado “red teaming”, no qual indivíduos ou grupos testam os modelos para identificar vulnerabilidades e falhas. De acordo com o relatório, há complexidades em padronizar os parâmetros de avaliação desses times, especialmente no que se refere à comparação de diferentes modelos.

Além disso, há uma dificuldade em encontrar pessoas com as habilidades necessárias para essa prática. “Um entrevistado observou que a formação de ‘red teaming’ também pode expor os avaliadores a conteúdos perturbadores, o que representa um risco para a saúde mental e o bem-estar dos mesmos”, acrescenta o estudo.

Continua após a publicidade

Possíveis soluções

O estudo conclui que, embora as avaliações atuais possam servir a um propósito exploratório, elas não são suficientes para garantir a segurança e eficácia dos modelos de IA.

Para solucionar essas questões, os autores propõem o desenvolvimento de avaliações específicas para contextos, que vão além de testar apenas a resposta de um modelo a um prompt.

Essas avaliações contextuais seriam projetadas para examinar a IA em uma variedade de cenários realistas e complexos, simulando interações mais próximas das situações que os usuários enfrentariam no mundo real.

Continua após a publicidade

“Existem algumas avaliações para medir a capacidade dos LLMs de gerar desinformação, informações incorretas ou alucinações, mas elas não consideram ameaças do mundo real, onde os agentes de desinformação podem usar técnicas para hackear os modelos”, destacam os autores. “Além disso, essas avaliações avaliam a geração de desinformação em contextos de laboratório, mas não avaliam os impactos dessa desinformação no mundo real”.

Nesse contexto, os pesquisadores sugerem a implementação de testes contínuos e adaptativos que considerem fatores como a evolução do comportamento do modelo ao longo do tempo e a capacidade de lidar com inputs imprevistos ou adversários.

Outra recomendação do estudo é a criação de benchmarks dinâmicos que possam ser atualizados regularmente para acompanhar os avanços na tecnologia, identificar vulnerabilidades emergentes e permitir melhorias contínuas nos modelos de IA.

Continua após a publicidade

Além disso, os autores defendem uma maior colaboração entre pesquisadores, desenvolvedores e reguladores para estabelecer padrões de segurança robustos e garantir a transparência no desenvolvimento e na implementação de IA — incluindo a divulgação de resultados de testes de segurança e a criação de repositórios abertos de dados de avaliação.

Conheça também o método desenvolvido por pesquisadores da Universidade de Oxford para detectar alucinações de IA.

Fonte: Ada Lovelace Institute