Todo PC com placa NVIDIA GeForce RTX é um AI PC em potencial

Por Daniel Trefilio | Editado por Jones Oliveira | 30 de Maio de 2024 às 10h10

Link copiado!

Tudo sobre Nvidia

Após o boom do ChatGPT, praticamente todas as fabricantes de hardware estão investindo pesado em lançar PCs domésticos capazes de rodar tarefas de IA localmente. Contudo, desde 2018 a NVIDIA já vem fazendo isso com a linha de GPUs GeForce RTX e investindo em pesquisa nesse segmento desde muito antes.

Em outubro, o Canaltech conversou com Jaime Casis, Diretor de Varejo da América Latina da NVIDIA, André Forte e Alexandre Ziebert, Gerentes de Relacionamento e Marketing Técnico da NVIDIA. Apesar de a exclusiva ter sido inicialmente sobre as placas de vídeo gamer, os três executivos deixaram claro que há muito tempo o foco da empresa já migrou para a IA, e as aplicações gamer são apenas uma consequência dos investimentos, e não seu norte.

Oficialmente, desde 2012 a NVIDIA entendeu que a IA seria o novo ponto de virada da indústria da computação, e seu primeiro servidor DGX com esse propósito foi lançado em 2016, vendido para a OpenAI e servindo de base para o que hoje é o ChatGPT.

Continua após a publicidade

PCs com IA já existem desde 2018

Apenas dois anos depois, em 2018, a empresa lançou as primeiras placas de vídeo domésticas GeForce RTX 2000, todas equipadas com núcleos Tensor. Os componentes foram projetados especificamente para tarefas de IA, mas por uma escolha de marketing a NVIDIA optou por focar inicialmente no potencial de Ray Tracing em tempo real das placas, algo mais visual e fácil de apresentar ao consumidor

Entretanto, o maior trunfo das GPUs gamer estava justamente na capacidade de Deep Learning dos núcleos Tensor associada ao enorme poder computacional da arquitetura CUDA. Essa combinação é o que possibilita, por exemplo, os efeitos de escalonamento de imagens e criação de quadros do DLSS (Deep Learning Super Sampling).

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Tanto por isso, Casis e Ziebert deixaram claro durante a conversa com o Canaltech que toda GPU equipada com núcleos Tensor já possui capacidade de realizar tarefas de IA com desempenho bastante superior aos 10 e 16 TOPS das NPUs Intel Meteor Lake e AMD Hawk Point.

O que mudou na Era da IA?

A grande diferença é que, ao longo desses 5 a 6 anos, essa tecnologia foi tratada como uma ferramenta silenciosa focada para melhorar a qualidade de games. Sendo assim, não se desenvolveu um ecossistema de softwares para o mercado doméstico capaz de explorar o poder latente de Inteligência Artificial dessas placas.

Com os serviços remotos escancarando as possibilidades da IA para profissionais criativos e, principalmente, para o ganho de produtividade, a tendência é cada vez mais desenvolvedores criando aplicações que exploram essas ferramentas localmente. Inclusive, a maioria dos serviços de nuvem já rodam em ecossistemas NVIDIA CUDA, tornando relativamente simples para as ISVs (Desenolvedoras Independentes de Software) lançarem aplicações domésticas, apenas redimensionando o escopo de seus softwares para rodar nos recursos mais reduzidos de PCs.

Continua após a publicidade

GPU vs NPU em tarefas de IA

É importante mencionar também que a própria Intel reconhece que o maior foco das NPUs não está no desempenho propriamente dito em tarefas de IA, mas na eficiência energética para realizar essas tarefas. De fato, as GPUs NVIDIA têm designs térmicos e energéticos bastante exigentes.

Apenas as GPUS AD107 das GeForce RTX 4060 Mobile, por exemplo, têm TDPs de até 115 W, elevando o TDP total do sistema a quase 200 W. Já os Intel Meteor Lake têm esse mesmo TDP de 115 W exclusivamente em turbo e para todo o conjunto de CPU, iGPU e NPU, mas seu projeto base é de até 45 W.

Continua após a publicidade

Rodando IA localmente na GeForce RTX

Para tirar a prova, o Canaltech utilizou um notebook equipado com uma GeForce RTX 4060, GPU de entrada da última geração, e rodou alguns testes de tarefas de IA. Em um teste mais simples, utilizamos a ferramenta de IA Generativa do Adobe Photoshop — ainda em nuvem — com o seguinte prompt “um samurai no topo de uma colina olhando o por do sol”.

O resultado entregou um lote de 3 imagens em aproximadamente 10 segundos utilizando os modelos remotos da Adobe em uma conexão com link de 1.000 Mbps. Ao executar exatamente o mesmo prompt no Copilot, o resultado foi igualmente satisfatório, mas o processo demorou cerca de 15 segundos entre o Copilot receber o comando e criar as imagens.

Continua após a publicidade

Benchmark de IA Generativa

Como até o momento são poucos os programas que oferecem IA Generativa local para criar imagens a partir de textos, usamos a extensão TensorRT para o Automatic1111 e rodamos o Stable Diffusion na RTX 4060 Mobile de 8 GB de VRAM. Por se tratar de uma ferramenta ainda em desenvolvimento e com um modelo extremamente reduzido de apenas 1,5 GB, o resultado é visualmente menos rico do que as imagens geradas via nuvem no Photoshop e Copilot.

Continua após a publicidade

Apesar da interface do navegador, todo o processo de inferência e criação de imagem roda na própria GPU em um host local identificado pelo endereço 127.0.0.1, por meio de uma API web. Todo o processo após o prompt levou cerca de 8 segundos, algo extremamente promissor para uma GPU de entrada com bem menos VRAM disponível do que os enormes servidores equipados com milhares de placas NVIDIA H100 e memória HBM.

Naturalmente, os tempos de geração das imagens na nuvem e na máquina local são próximos muito mais pela questão da latência dos servidores e filas de usuários, mas isso não diminui o feito da RTX 4060.

Indo ainda além, passamos para os novos testes sintéticos de GenAI do UL Procyon, mesmo kit de ferramenta que utilizamos em nossos benchmarks de notebooks. Comparando com banco de dados de resultados validados do Procyon, os 859 pontos da RTX 4060 ficam bem abaixo da média próxima de 4 mil da RTX 4080 SUPER para desktop.

Continua após a publicidade

No entanto, em termos absolutos, a média de tempo para geração de imagens do benchmark sintético local é de 7 segundos por imagem, relativamente inferior aos 3 a 4 segundos por imagem do Copilot e Adobe Photoshop com processamento em nuvem, mas bastante satisfatório para uma GPU com recursos limitados como a RTX 4060.

Chatbots locais

Outra ferramenta inclusa nos testes foi o Chat With RTX, software proprietário gratuito da NVIDIA que permite criar chatbots totalmente locais e seguros, sem a contaminação de ambientes web. Ainda em estágio beta, ele consegue realizar tarefas de inferência como pesquisas, resumos e ajudar a filtrar conteúdos utilizando bibliotecas exclusivamente locais.

Continua após a publicidade

Com isso, posso, por exemplo, perguntar à ferramenta o que é a Lei de Amdahl, e ela irá responder baseado apenas nos artigos e referências salvos na minha biblioteca local. Por rodar os testes em uma RTX 4060 de 8 GB, o Chat With RTX fica limitado a realizar tarefas de inferência apenas utilizando bibliotecas em texto, mas para placas RTX 4080 e RTX 4090, com 16 GB ou mais, ele já suporta modelos LLM também de vídeos e imagens para as inferências.

Por que a IA local é relevante?

Tanto no caso das gerações de imagem via Stable Diffusion quanto do chatbot, o benefício imediato é, acima de tudo, a privacidade dos dados. Ao rodar aplicações web como o ChatGPT, Gemini ou Copilot, todas as buscas e interações ficam salvas e atreladas a um perfil, automaticamente alimentando esses dados aos modelos desses serviços.

Criadores de conteúdo

Continua após a publicidade

Para a maioria dos usuários comuns isso não é necessariamente um problema, uma vez que dificilmente vão utilizar essas soluções para criar materiais passíveis de proteção por direitos autorais.

Contudo, criadores de conteúdo, jornalistas, escritores, desenhistas e até desenvolvedores cedem basicamente os direito de uso de suas criações ao alimentá-las no Gemini, por exemplo, para auxiliar a estruturar um novo roteiro, buscar inconsistências em um código ou criar um cenário específico para inspirar uma arte final. Para profissionais de fotografia e edição de imagem, ferramentas como o Camera Raw reduzem o ruído de arquivos brutos de altíssima resolução em segundos.

Ao trazer o processamento da nuvem para o localhost, roteiristas podem utilizar chatbots para buscar em roteiros anteriores o nome e contexto de personagens que terão mais destaque na próxima obra, sem que essa informação fique disponível em bancos de dados web, deixando rastros que levem a dicas e spoilers de produções que sequer estão prontas.

Continua após a publicidade

Ambientes corporativos e de pesquisa

No caso do ambiente corporativo, o caráter de segurança de dados é ainda mais evidente, pois praticamente todas as informações de uma empresa são sigilosas, e otimizar fluxos de trabalho com ferramentas web abre uma brecha enorme de segurança.

O mesmo vale para centros de pesquisa e universidades, onde vários estudos são realizados simultaneamente no mundo todo, mas o crédito só vale para quem publicar primeiro. Ter trechos importantes de uma tese revolucionária vazada pode comprometer tanto a vida da equipe de pesquisadores quanto a própria credibilidade da universidade.

Uso em games e no cotidiano

Continua após a publicidade

O uso de IA em games é talvez o mais evidente para o usuário doméstico. Atualmente, o DLSS já é uma ferramenta extremamente revolucionária, permitindo rodar jogos pesadíssimos como Cyberpunk 2077 com Ray Tracing e outros efeitos visuais acima de 60 FPS.

A indústria de games, inclusive, já caminha para permitir realizar toda a renderização gráfica - apenas a renderização, não a programação - dos games via IA até 2034. Com softwares como o NVIDIA ACE, ainda será possível criar NPCs com linguagem natural e interações mais humanas, com os resultados de uma conversa e a própria responsividade do NPC variando de acordo com o contexto tanto daquele cenário, quanto das atitudes do protagonista.

Em usos mais cotidianos, drivers específicos das placas RTX com núcleos tensor conseguem reduzir o nível de ruídos em chamadas de voz e melhorar a qualidade de vídeos em tempo real, mesmo em transmissões ao vivo na Twitch ou YouTube.

Com isso, é possível receber sinais em Full HD, por exemplo, e escalonar a transmissão para 4K sem sobrecarregar a banda de internet, possibilitando assistir um conteúdo em altíssima resolução e ainda jogar partidas competitivas com baixa latência.

Todo PC com GeForce RTX já é um IA PC

Resumidamente, todo PC equipado com uma placa de vídeo GeForce RTX já é um IA PC, com poder computacional bastante elevado, por sinal. A questão é que, pela falta de aplicações que explorem essas capacidades, a maioria dos usuários sequer tem noção disso.

Com mais ISVs criando soluções que explorem o potencial dessas placas, mesmo notebooks e desktops mais antigos vão, de alguma forma, se beneficiar da Inteligência Artificial em um ou mais pontos de suas vidas.

Naturalmente, as máquinas NVIDIA projetadas sob medida para IA, esperadas para 2025, já devem estar mais alinhadas com a premissa moderna dos AI PCs, com foco na economia de energia sem abrir mão do desempenho, e com maior volume de memória para rodar modelos LLM mais exigentes.

Ainda assim, quem acabou de comprar seu notebook com uma RTX 4090 não precisa se desesperar, pois seu setup ainda é extremamente competente também para IA, muito mais inclusive que a maioria dos primeiros sistemas pensados especificamente para esse novo mercado.