OpenAI admite que modelos de IA usam materiais protegidos por lei

Por Guilherme Haas • Editado por Douglas Ciriaco | 09/01/2024 às 12:38

Compartilhe:

A OpenAI publicou, nessa segunda-feira (8), uma resposta ao processo movido pelo jornal The New York Times, que acusa a empresa de utilizar materiais protegidos por direitos autorais para o treinamento de seus modelos de linguagem de larga escala (LLMs). No blog oficial, a companhia informa que a prática é um “uso justo” dos conteúdos tendo em vista a inovação e os benefícios que esses modelos proporcionam aos cidadãos.

A empresa discorda das acusações do jornal e apresenta um esclarecimento sobre suas práticas citando, entre outras coisas, a possibilidade de os sites bloquearem o rastreador que compila os conteúdos das páginas.

Ao mesmo tempo, a OpenAI providenciou respostas a um inquérito do Comitê de Comunicação Digital da Câmara dos Lordes, do Reino Unido, ao qual admite que seria impossível treinar os LLMs sem utilizar materiais protegidos por direitos autorais.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Modelos treinados com materiais protegidos

Responsável por modelos como DALL-3, GPT-4 e GPT-3.5 — que alimentam o ChatGPT —, a OpenAI escreveu ao Comitê que acredita que “as ferramentas de IA atingem o seu melhor estado quando incorporam e representam toda a diversidade e amplitude da inteligência e experiência humana”.

A companhia informa que o treinamento de seus modelos de linguagem de larga escala utiliza três fontes principais: informações públicas disponíveis na internet, dados licenciados de terceiros, e informações providenciadas por treinadores humanos.

Na declaração ao Comitê, a OpenAI afirmou que: “Como os direitos autorais abrangem hoje praticamente todo o tipo de expressão humana — incluindo publicações em blogs, fotografias, publicações em fóruns, fragmentos de código de software e documentos governamentais — seria impossível treinar os principais modelos de IA da atualidade sem utilizar materiais protegidos por direitos autorais”.

Segundo a companhia, se o treinamento fosse realizado apenas como materiais em domínio público — ou seja, livros e imagens com mais de cem anos de existência — resultaria em sistemas de IA de pouca utilidade para as pessoas.

Ao Comitê inglês, a OpenAI disse ainda que “embora acreditamos que legalmente a lei dos direitos autorais não proíba o treinamento, também reconhecemos que ainda há muito trabalho a ser feito para apoiar e capacitar os criadores”.

Ações da OpenAI sobre o treinamento

Continua após a publicidade

No blog oficial, a companhia oferece mais detalhes sobre o seu entendimento em relação ao treinamento dos LLMs e utilização de conteúdos protegidos por direitos autorais.

A empresa cita o “uso justo” dos materiais tendo em vista precedentes tecnológicos, a livre concorrência e as vantagens dos sistemas de IA. No texto, a OpenAI se apresenta como um “bom parceiro” que tem como objetivo apoiar o desenvolvimento de um ecossistema saudável para o setor jornalístico.

Entre as ações que a empresa cita como demonstrações de apoio ao setor estão o diálogo com dezenas de organizações para “explorar oportunidades, discutir suas preocupações e fornecer soluções” e o recurso que bloqueia o rastreador da companhia de acessar os conteúdos dos sites.

Continua após a publicidade

OpenAI rebate o The New York Times

Em resposta direta ao jornal The New York Times, a OpenAI se disse surpresa e desapontada com o processo judicial aberto no último dia 27 de dezembro, pois as duas partes mantinham uma conversa até o começo daquele mês.

A dona do ChatGPT rebate a acusação do jornal sobre a utilização indevida de suas matérias para o treinamento dos LLMs e acusa o NYT de manipular o prompt de comando — em múltiplas maneiras — até conseguir um texto que replicasse os conteúdos de suas reportagens.

Continua após a publicidade

Segundo o New York Times, trechos praticamente idênticos às matérias originais foram gerados como respostas no chatbot, incluindo reportagens premiadas e limitadas a assinantes. Vale notar que o jornal optou por bloquear o acesso da ferramenta de leitura da OpenAI sobre seus materiais em agosto de 2023.

“Mesmo ao usar tais comandos, nossos modelos normalmente não se comportam da maneira que o New York Times insinua, o que sugere que eles instruíram o modelo a regurgitar ou escolheram a dedo seus exemplos em muitas tentativas”, escreveu a gigante do setor de IA.

No final do texto no blog oficial, a OpenAI que, apesar do processo movido pelo NYT, “espera continuar a colaborar com organizações de notícias, ajudando a aumentar a sua capacidade de produzir jornalismo de qualidade, incorporando o potencial transformador da inteligência artificial”.