LongNet | Microsoft prepara IA 250 mil vezes mais potente que o ChatGPT

Por Guilherme Haas • Editado por Douglas Ciriaco | 17/07/2023 às 09:53 • Atualizado 17/07/2023 às 09:53

Compartilhe:

A Microsoft desenvolve uma nova arquitetura que promete escalar o processamento de informações em modelos de linguagem de grande escala como os que alimentam o ChatGPT e outras ferramentas de IA generativa. Chamado de LongNet, o método pode ser até 250 mil vezes mais potente do que o ChatGPT.

Mudança de método no processamento de dados

No método atual de funcionamento das IAs, os modelos de linguagem de grande escala precisam ter a capacidade de lidar com sequências cada vez mais longas, enquanto os dados são interpretados pelos chamados modelos transformadores.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

O problema na arquitetura atual é que a relação entre o comprimento da sequência e a necessidade de capacidade computacional é exponencial, à medida que quanto maior a sequência, muito mais uso de hardware é necessário para tratar os dados.

Para que os transformadores consigam processar essas informações, elas são divididas em pequenas unidades — os tokens. Atualmente, os modelos têm uma capacidade limitada de leitura, pois não conseguem assimilar todos os tokens de uma só vez sem perder dados ou velocidade.

A proposta que a Microsoft elabora é criar uma arquitetura que se assemelha com a lógica neural. O LongNet seria capaz de potencializar o processamento de tokens com um mecanismo de “atenção dilatada”.

Nesse método, a alocação de “atenção” diminui à medida que a distância entre os tokens fica maior, enquanto os tokens próximos são examinados com a atenção padrão. Dessa forma, o processamento é utilizado para focar nas relações mais próximas enquanto os tokens mais distantes recebem um nível de atenção mais grosseiro.

250 mil vezes mais poderosa que o ChatGPT

O ChatGPT da OpenAI processa 4.096 tokens por vez, o que representa cerca de 3 mil palavras, mas há variantes do GPT-3.5-turbo com 8 mil tokens e do GPT-4 de até 32 mil tokens. O LongNet, por sua vez, teria uma capacidade de leitura de até 1 bilhão de tokens, ou 750 milhões de palavras processadas ao mesmo tempo.

Com esse método, portanto, a Microsoft LongNet poderia elevar a capacidade de leitura de modelos de linguagem de grande escala para ser até 250 mil vezes mais potente do que o ChatGPT disponível gratuitamente.

Continua após a publicidade

Por enquanto, o LongNet ainda está em fase de estudo. O modelo foi publicado em um artigo acadêmico pela Univeridade Cornell, nos Estados Unidos. No entanto, se a arquitetura se mostrar viável, pode representar mais um salto tecnológico imenso na capacidade de processamento dos modelos que alimentam as IAs.