Big Techs usaram canais do YouTube para treinar IAs sem permissão
Por Guilherme Haas |
Gigantes da tecnologia, incluindo Apple, NVIDIA e Salesforce, estão sob escrutínio após uma investigação revelar que elas utilizaram dados de vídeos do YouTube sem a devida permissão dos criadores para treinar modelos de inteligência artificial.
Segundo a investigação da Proof News, essas empresas usaram legendas de mais de 170 mil vídeos do YouTube, baixadas por uma organização sem fins lucrativos chamada EleutherAI, para realizar o treinamento de suas IAs.
Material para treinamento
O objetivo inicial da EleutherAI era fornecer materiais de treinamento para desenvolvedores menores e acadêmicos. No entanto, grandes corporações do Vale do Silício, como Apple, NVIDIA, Anthropic e Salesforce, também utilizaram esses dados no treinamento de IAs — o que viola os termos de serviço do YouTube.
Entre os criadores afetados estão personalidades como Marquees Brownlee (MKBHD), MrBeast e PewDiePie. As legendas dos vídeos, que servem como transcrições detalhadas do conteúdo, foram compiladas em um conjunto de dados conhecido como "The Pile", acessível publicamente na internet.
No estudo, a Proof News criou uma ferramenta para identificar quais vídeos foram compilados nesse banco de dados. O conjunto inclui não apenas vídeos de tecnologia e entretenimento, mas também materiais educacionais de instituições renomadas como Khan Academy, MIT e Harvard.
De acordo com a investigação da Proof News, a Apple, por exemplo, utilizou o material para treinar o OpenELM, um modelo de IA lançado em abril. Representantes das empresas Anthropic e Salesforce confirmaram à Proof News a utilização do “The Pile”, mas negaram qualquer irregularidade.
Direitos dos criadores de conteúdo
Embora as empresas possam ter agido de boa-fé ao utilizar dados disponíveis publicamente, a prática levanta sérias questões sobre os direitos dos criadores de conteúdo e a ética no uso de materiais obtidos sem permissão explícita.
A situação exemplifica o complexo cenário legal e ético da coleta de dados para treinamento de IA. Além das violações de direitos autorais, há preocupações crescentes sobre a reprodução não autorizada de conteúdo criativo e o impacto potencial sobre os empregos e rendimentos dos criadores.
Em abril, uma reportagem do The New York Times revelou que o Google e a OpenAI também utilizam transcrições de vídeos do YouTube para treinar suas IAs — o que já sinalizou como todos os dados públicos estão sendo usados pela indústria de inteligência artificial.
Em resposta, algumas empresas argumentaram que o uso de dados públicos para treinar IA constitui “uso justo”. No entanto, muitos criadores e defensores dos direitos digitais discordam, defendendo a necessidade de regulamentações mais rigorosas e compensações justas para o uso de seus trabalhos.
A questão abrange não apenas criadores de conteúdos no YouTube, mas também profissionais de diferentes áreas — como designers, escritores, jornalistas, músicos e artistas.
Fonte: Proof News