Nem a Nvidia escapou: Pesquisadores acham brechas graves em motores de IA
Por Lillian Sibila Dala Costa • Editado por Jones Oliveira |

Pesquisadores de cibersegurança da Oligo descobriram vulnerabilidades críticas de execução de código remoto na inteligência artificial de motores de inferência, impactando tecnologias da Meta, Microsoft e Nvidia, além de projetos PyTorch open-source como vLLM e SGLand.
Todas as brechas, segundo o pesquisador Avi Lumelsky, vêm de uma mesma causa: o uso inseguro e descuidado do ZeroMQ e da desserialização de pickle do Python. O problema foi descrito como um padrão chamado ShadowMQ, onde a lógica de desserialização insegura se propagou a diversos projetos por conta da reutilização de códigos.
Bugs nas LLMs das grandes empresas
A raiz do problema, de acordo com a pesquisa, é uma vulnerabilidade no framework da LLM da Meta, Llama, CVE-2024-50050, de score CVSS 6,3/9,3. A falha foi corrigida em outubro deste ano pela companhia, e envolvia o uso do método recv_pyobj() do ZeroMQ para desserializar dados recebidos usando o módulo pickle do Python.
Junto ao fato de que o framework expôs o socket ZeroMQ pela rede, a questão abriu portas para que invasores pudessem executar códigos arbitrários ao enviar dados maliciosos para desserialização. A Oligo notou o mesmo padrão de brecha em outras frameworks de inferência, como a TensorRT-LLM, da Nvidia, Sarathi-Serve, da Microsoft, Modular Max Server, SGLang e vLLM.
Em alguns poucos casos, o problema surgiu por conta de códigos copiados e colados diretamente na fonte. Enquanto algumas empresas corrigiram a falha, outras seguem em aberto e algumas voltaram à versão anterior:
- CVE-2025-30165 (score CVSS: 8,0) - vLLM (não corrigida, retornou à engine V1 até a correção);
- CVE-2025-23254 (CVSS: 8,8) - NVIDIA TensorRT-LLM (corrigida na versão 0.18.2);
- CVE-2025-60455 (CVSS score: N/A) - Modular Max Server (corrigida);
- Sarathi-Serve (sem correção);
- SGLang (correções incompletas).
Os motores de inferência são componentes cruciais de infraestruturas de IA, então comprometer um único nódulo permite que hackers executem códigos, aumentem privilégios, roubem modelos e até mesmo enviem agentes maliciosos, como mineradores de criptomoedas, para dentro das LLMs.
Veja mais:
- Falsa extensão do Chrome rouba senha da carteira de criptomoedas dos usuários
- IA com 30 anos de "memória" é usada para combater crimes digitais
- Megaoperação policial desliga mil servidores de hackers em todo o mundo
VÍDEO | Chat GPT, Perplexity, Claude, Gemini: QUAL escolher?
Fonte: Oligo