Big Techs usaram canais do YouTube para treinar IAs sem permissão

Por Guilherme Haas | 16/07/2024 às 12:53

Compartilhe:

Gigantes da tecnologia, incluindo Apple, NVIDIA e Salesforce, estão sob escrutínio após uma investigação revelar que elas utilizaram dados de vídeos do YouTube sem a devida permissão dos criadores para treinar modelos de inteligência artificial.

Continua após a publicidade

Segundo a investigação da Proof News, essas empresas usaram legendas de mais de 170 mil vídeos do YouTube, baixadas por uma organização sem fins lucrativos chamada EleutherAI, para realizar o treinamento de suas IAs.

Material para treinamento

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

O objetivo inicial da EleutherAI era fornecer materiais de treinamento para desenvolvedores menores e acadêmicos. No entanto, grandes corporações do Vale do Silício, como Apple, NVIDIA, Anthropic e Salesforce, também utilizaram esses dados no treinamento de IAs — o que viola os termos de serviço do YouTube.

Entre os criadores afetados estão personalidades como Marquees Brownlee (MKBHD), MrBeast e PewDiePie. As legendas dos vídeos, que servem como transcrições detalhadas do conteúdo, foram compiladas em um conjunto de dados conhecido como "The Pile", acessível publicamente na internet.

No estudo, a Proof News criou uma ferramenta para identificar quais vídeos foram compilados nesse banco de dados. O conjunto inclui não apenas vídeos de tecnologia e entretenimento, mas também materiais educacionais de instituições renomadas como Khan Academy, MIT e Harvard.

De acordo com a investigação da Proof News, a Apple, por exemplo, utilizou o material para treinar o OpenELM, um modelo de IA lançado em abril. Representantes das empresas Anthropic e Salesforce confirmaram à Proof News a utilização do “The Pile”, mas negaram qualquer irregularidade.

Direitos dos criadores de conteúdo

Embora as empresas possam ter agido de boa-fé ao utilizar dados disponíveis publicamente, a prática levanta sérias questões sobre os direitos dos criadores de conteúdo e a ética no uso de materiais obtidos sem permissão explícita.

A situação exemplifica o complexo cenário legal e ético da coleta de dados para treinamento de IA. Além das violações de direitos autorais, há preocupações crescentes sobre a reprodução não autorizada de conteúdo criativo e o impacto potencial sobre os empregos e rendimentos dos criadores.

Continua após a publicidade

Em abril, uma reportagem do The New York Times revelou que o Google e a OpenAI também utilizam transcrições de vídeos do YouTube para treinar suas IAs — o que já sinalizou como todos os dados públicos estão sendo usados pela indústria de inteligência artificial.

Em resposta, algumas empresas argumentaram que o uso de dados públicos para treinar IA constitui “uso justo”. No entanto, muitos criadores e defensores dos direitos digitais discordam, defendendo a necessidade de regulamentações mais rigorosas e compensações justas para o uso de seus trabalhos.

A questão abrange não apenas criadores de conteúdos no YouTube, mas também profissionais de diferentes áreas — como designers, escritores, jornalistas, músicos e artistas.

Fonte: Proof News