Publicidade

Latam-GPT é o novo modelo de IA aberto que 'entende' a América Latina

Por  | 

Compartilhe:
Reprodução/AWS
Reprodução/AWS

A América Latina ganhou um modelo de linguagem (LLM) de código aberto para chamar de seu: o Latam-GPT. Anunciada nesta terça-feira (10), a IA foi desenvolvida pelo Centro Nacional de Inteligência Artificial do Chile (CENIA) em parceria com mais de 60 organizações espalhadas por 15 países da região, incluindo o Brasil.

Diferentemente de ferramentas dominantes no mercado, treinadas majoritariamente em inglês, o novo LLM foi alimentado com cerca de 300 bilhões de tokens em espanhol e português, algo em torno de 230 bilhões de palavras.

Todo esse acervo textual passou por curadoria rigorosa, com remoção de conteúdos nocivos, como notícias falsas e discriminação, e anonimização de informações pessoais, cobrindo áreas como humanidades, saúde, políticas públicas e culturas indígenas.

Canaltech
O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia
Continua após a publicidade

O projeto se apoia na arquitetura Llama 3.1, com 70 bilhões de parâmetros, e contou com infraestrutura de nuvem fornecida pela Amazon Web Services (AWS).

Segundo a empresa, a otimização dos recursos computacionais encurtou o período de treinamento de 25 para apenas 9 dias, uma redução de 64%.

O Banco de Desenvolvimento da América Latina e Caribe (CAF) e o Data Observatory também participaram do esforço.

Modelo aberto

Mais de cem pesquisadores, cientistas e engenheiros colaboraram na construção do Latam-GPT, que carrega um propósito específico: funcionar como bem público para democratizar o acesso à tecnologia e viabilizar seu uso em áreas estratégicas.

Por ter licença aberta, universidades, governos e startups podem adaptá-lo livremente para criar ferramentas próprias em campos como educação, empreendedorismo e administração estatal.

A escassez de material em idiomas latinos nos bancos globais de treinamento motivou a iniciativa. Estimativas baseadas no repositório Common Crawl indicam que textos em espanhol correspondem a cerca de 4% do total disponível, enquanto o português responde por apenas 2%.

Essa disparidade faz com que particularidades culturais, históricas e políticas do continente sejam ignoradas ou tratadas superficialmente pelos sistemas existentes.

Continua após a publicidade

Para o diretor do CENIA, Álvaro Soto, a ferramenta não é um produto final, mas um alicerce sobre o qual diferentes atores poderão erguer soluções ajustadas às suas realidades.

Leia mais: