Nem a Nvidia escapou: Pesquisadores acham brechas graves em motores de IA

Por Lillian Sibila Dala Costa • Editado por Jones Oliveira | 17/11/2025 às 13:40

Compartilhe:

Pesquisadores de cibersegurança da Oligo descobriram vulnerabilidades críticas de execução de código remoto na inteligência artificial de motores de inferência, impactando tecnologias da Meta, Microsoft e Nvidia, além de projetos PyTorch open-source como vLLM e SGLand.

Todas as brechas, segundo o pesquisador Avi Lumelsky, vêm de uma mesma causa: o uso inseguro e descuidado do ZeroMQ e da desserialização de pickle do Python. O problema foi descrito como um padrão chamado ShadowMQ, onde a lógica de desserialização insegura se propagou a diversos projetos por conta da reutilização de códigos.

Bugs nas LLMs das grandes empresas

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A raiz do problema, de acordo com a pesquisa, é uma vulnerabilidade no framework da LLM da Meta, Llama, CVE-2024-50050, de score CVSS 6,3/9,3. A falha foi corrigida em outubro deste ano pela companhia, e envolvia o uso do método recv_pyobj() do ZeroMQ para desserializar dados recebidos usando o módulo pickle do Python.

Junto ao fato de que o framework expôs o socket ZeroMQ pela rede, a questão abriu portas para que invasores pudessem executar códigos arbitrários ao enviar dados maliciosos para desserialização. A Oligo notou o mesmo padrão de brecha em outras frameworks de inferência, como a TensorRT-LLM, da Nvidia, Sarathi-Serve, da Microsoft, Modular Max Server, SGLang e vLLM.

Em alguns poucos casos, o problema surgiu por conta de códigos copiados e colados diretamente na fonte. Enquanto algumas empresas corrigiram a falha, outras seguem em aberto e algumas voltaram à versão anterior:

CVE-2025-30165 (score CVSS: 8,0) - vLLM (não corrigida, retornou à engine V1 até a correção);
CVE-2025-23254 (CVSS: 8,8) - NVIDIA TensorRT-LLM (corrigida na versão 0.18.2);
CVE-2025-60455 (CVSS score: N/A) - Modular Max Server (corrigida);
Sarathi-Serve (sem correção);
SGLang (correções incompletas).

Os motores de inferência são componentes cruciais de infraestruturas de IA, então comprometer um único nódulo permite que hackers executem códigos, aumentem privilégios, roubem modelos e até mesmo enviem agentes maliciosos, como mineradores de criptomoedas, para dentro das LLMs.

Veja mais:

Continua após a publicidade

VÍDEO | Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?

Fonte: Oligo