Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

De onde o ChatGPT tira as informações?

Por| Editado por Douglas Ciriaco | 30 de Maio de 2023 às 12h00

Link copiado!

Reprodução/OpenAI (modificada)
Reprodução/OpenAI (modificada)

O ChatGPT precisa de fontes de informações para dar respostas e executar as ações solicitadas por quem o utiliza. Mas você tem alguma ideia de onde o chatbot da OpenAI tira esse imenso volume de dados?

São variadas as fontes usadas pelo ChatGPT e isso é compreensível. Como a inteligência artificial generativa é treinada a partir de modelos — GPT-3.5 e GPT-4 são os mais recentes —, quanto mais ampla for a base de informações, mais conteúdo disponível o robô terá para se desenvolver.

Confira a seguir as principais origens de onde o ChatGPT se baseia para responder ao usuário.

Continua após a publicidade

10 fontes de dados do ChatGPT

10. Conteúdo da web em geral

Originalmente, o ChatGPT não conseguia acessar a sites da internet em tempo real, mas isso mudou a partir do modelo GPT-4. Recentemente, foi anunciada a integração do chatbot com o buscador Bing, o que permite ter acesso a boa parte do conteúdo da internet.

Continua após a publicidade

Mesmo assim, ele já conseguia analisar notícias, sites referenciais, fóruns, algumas redes sociais e até documentos. Atualmente, tudo que esteja hospedado na web pode servir como origem de informações da IA, fato que pode levar a uma incrível expansão do conhecimento nos próximos meses.

9. Wikipedia

Se até o Google usa a Wikipedia como fonte, por que o ChatGPT não o faria? Os artigos da Enciclopédia Livre são uma das principais fontes de dados do chatbot, principalmente em perguntas mais diretas. Aliás, o site é um dos maiores ameaçados com a chegada das IAs, afinal suas informações são extraídas por qualquer chatbot de IA sem qualquer compensação.

8. Artigos acadêmicos

Continua após a publicidade

Bing e Google possuem mecanismos de indexação de artigos científicos e acadêmicos publicados em periódicos ou repositórios de universidades. É claro que o ChatGPT também foi treinado neste tipo de fonte mais qualificada, porque isso permite discorrer com mais autoridade em assuntos técnicos.

7. Dados estruturados

O ChatGPT é bom em matemática e em lógica de programação por um motivo simples: treinamento em dados estruturados. Isso significa que o modelo de linguagem usado por ele recebeu exaustiva quantidade de tabelas e banco de dados e assim consegue fornecer respostas organizadas ou até tabuladas como no Excel.

Continua após a publicidade

6. Perguntas e respostas

As pessoas fazem muitas perguntas a buscadores na tentativa de obter respostas instantâneas. Esse tipo de treinamento também foi feito de maneira separada no ChatGPT para a tecnologia compreender essa característica humana. A IA consegue entender bem os contextos e apresentar respostas de maneira natural, como se fosse produzida de maneira coerente por uma pessoa.

5. Livros

Continua após a publicidade

O ChatGPT foi treinado em uma vasta coleção de livros sobre os mais diversos tópicos. Isso inclui desde títulos clássicos de literatura até complexos materiais didáticos de cursos de pós-graduação. Esse viés mais técnico do chatbot permite apresentar conceitos complexos, resumir fatos e criar narrativas fundamentadas, como fazem os autores.

4. Idiomas estrangeiros

Enquanto o Bard é limitado apenas ao inglês, o ChatGPT consegue entender e responder a dúvidas em vários idiomas — inclusive o português. Isso se deve ao acesso aos chamados “dados multilíngues”, que usam bancos de dados similares aos de tradutores online, mas com a importante dosagem de aprendizado de máquina.

Continua após a publicidade

3. Dados de conversas

Já notou como o ChatGPT consegue interagir com as pessoas como se houvesse alguém do outro lado? Essa capacidade vem do acesso da IA a dados de conversação, como diálogos, entrevistas de jornalistas e conversas humanas. Esta origem de informações ajuda o modelo a entender o fluxo da comunicação e a dinâmica de conversas, mesmo em idiomas diferentes.

2. Posts de redes sociais

Continua após a publicidade

Conteúdos de certas redes sociais entram na base de dados do ChatGPT. O Twitter é a principal ferramenta usada pela IA, já que os posts podem ser localizados até por buscadores. Vídeos, GIFs e fotos ainda não são interpretados pelo chatbot, mas descrições e textos alternativos podem ser fontes de informação para o treinamento.

1. Manuais, análises e avaliações

O ChatGPT consegue comparar produtos para apresentar vantagens e desvantagens. Como ele sabe disso se nunca experimentou nada? Com base em informações dos próprios usuários: reviews de sites especializados, avaliações feitas em e-commerce e manuais técnicos dos sites oficiais são alguns exemplos. Quanto mais análises você envia para esses locais, mais treinamento o ChatGPT receberá nos produtos.