OpenAI admite que modelos de IA usam materiais protegidos por lei
Por Guilherme Haas • Editado por Douglas Ciriaco |
A OpenAI publicou, nessa segunda-feira (8), uma resposta ao processo movido pelo jornal The New York Times, que acusa a empresa de utilizar materiais protegidos por direitos autorais para o treinamento de seus modelos de linguagem de larga escala (LLMs). No blog oficial, a companhia informa que a prática é um “uso justo” dos conteúdos tendo em vista a inovação e os benefícios que esses modelos proporcionam aos cidadãos.
- OpenAI | Tudo sobre a criadora do polêmico ChatGPT
- 5 destaques de IA em 2023 e o que esperar para 2024
A empresa discorda das acusações do jornal e apresenta um esclarecimento sobre suas práticas citando, entre outras coisas, a possibilidade de os sites bloquearem o rastreador que compila os conteúdos das páginas.
Ao mesmo tempo, a OpenAI providenciou respostas a um inquérito do Comitê de Comunicação Digital da Câmara dos Lordes, do Reino Unido, ao qual admite que seria impossível treinar os LLMs sem utilizar materiais protegidos por direitos autorais.
Modelos treinados com materiais protegidos
Responsável por modelos como DALL-3, GPT-4 e GPT-3.5 — que alimentam o ChatGPT —, a OpenAI escreveu ao Comitê que acredita que “as ferramentas de IA atingem o seu melhor estado quando incorporam e representam toda a diversidade e amplitude da inteligência e experiência humana”.
A companhia informa que o treinamento de seus modelos de linguagem de larga escala utiliza três fontes principais: informações públicas disponíveis na internet, dados licenciados de terceiros, e informações providenciadas por treinadores humanos.
Na declaração ao Comitê, a OpenAI afirmou que: “Como os direitos autorais abrangem hoje praticamente todo o tipo de expressão humana — incluindo publicações em blogs, fotografias, publicações em fóruns, fragmentos de código de software e documentos governamentais — seria impossível treinar os principais modelos de IA da atualidade sem utilizar materiais protegidos por direitos autorais”.
Segundo a companhia, se o treinamento fosse realizado apenas como materiais em domínio público — ou seja, livros e imagens com mais de cem anos de existência — resultaria em sistemas de IA de pouca utilidade para as pessoas.
Ao Comitê inglês, a OpenAI disse ainda que “embora acreditamos que legalmente a lei dos direitos autorais não proíba o treinamento, também reconhecemos que ainda há muito trabalho a ser feito para apoiar e capacitar os criadores”.
Ações da OpenAI sobre o treinamento
No blog oficial, a companhia oferece mais detalhes sobre o seu entendimento em relação ao treinamento dos LLMs e utilização de conteúdos protegidos por direitos autorais.
A empresa cita o “uso justo” dos materiais tendo em vista precedentes tecnológicos, a livre concorrência e as vantagens dos sistemas de IA. No texto, a OpenAI se apresenta como um “bom parceiro” que tem como objetivo apoiar o desenvolvimento de um ecossistema saudável para o setor jornalístico.
Entre as ações que a empresa cita como demonstrações de apoio ao setor estão o diálogo com dezenas de organizações para “explorar oportunidades, discutir suas preocupações e fornecer soluções” e o recurso que bloqueia o rastreador da companhia de acessar os conteúdos dos sites.
OpenAI rebate o The New York Times
Em resposta direta ao jornal The New York Times, a OpenAI se disse surpresa e desapontada com o processo judicial aberto no último dia 27 de dezembro, pois as duas partes mantinham uma conversa até o começo daquele mês.
A dona do ChatGPT rebate a acusação do jornal sobre a utilização indevida de suas matérias para o treinamento dos LLMs e acusa o NYT de manipular o prompt de comando — em múltiplas maneiras — até conseguir um texto que replicasse os conteúdos de suas reportagens.
Segundo o New York Times, trechos praticamente idênticos às matérias originais foram gerados como respostas no chatbot, incluindo reportagens premiadas e limitadas a assinantes. Vale notar que o jornal optou por bloquear o acesso da ferramenta de leitura da OpenAI sobre seus materiais em agosto de 2023.
“Mesmo ao usar tais comandos, nossos modelos normalmente não se comportam da maneira que o New York Times insinua, o que sugere que eles instruíram o modelo a regurgitar ou escolheram a dedo seus exemplos em muitas tentativas”, escreveu a gigante do setor de IA.
No final do texto no blog oficial, a OpenAI que, apesar do processo movido pelo NYT, “espera continuar a colaborar com organizações de notícias, ajudando a aumentar a sua capacidade de produzir jornalismo de qualidade, incorporando o potencial transformador da inteligência artificial”.