Posts de Tumblr e WordPress serão usados para treinar IA

Por Bruno De Blasi • Editado por Douglas Ciriaco | 28/02/2024 às 15:26 • Atualizado 28/02/2024 às 15:26

Compartilhe:

Dados do Tumblr e do WordPress.com serão vendidos para o treinamento de inteligência artificial (IA). A Automattic, dona das plataformas, está prestes a fechar um contrato com OpenAI e Midjourney para oferecer acesso às informações que ajudariam a desenvolver novos modelos e aprimorar as tecnologias já existentes.

Os detalhes foram revelados pelo site 404 Media, que tevee acesso a documentos internos sobre a transação entre as empresas. A Automattic também confirmou no seu blog oficial que faz parcerias com companhias de IA, mas não citou nomes.

Poder de escolha

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A aproximação será destinada apenas aos conteúdos disponíveis nas redes de blogs Tumblr e WordPress.com, sem atingir o programa WordPress para ser instalado em servidores próprios. Por outro lado, ainda não há informações sobre o impacto do acordo com sites que utilizam o plugin Jetpack.

Com a parceria, as publicações disponíveis em blogs criados em qualquer uma das duas ferramentas serão coletadas para treinar modelos de inteligência artificial. Todavia, a Automattic liberou um botão para que os proprietários das páginas impeçam o compartilhamento das informações para a OpenAI, Midjourney e demais parceiros.

Essa decisão chegou a virar um questionamento interno quando um funcionário perguntou se há garantias de que os parceiros não vão coletar os dados caso os usuários recusem. A resposta veio do chefe de IA da Automattic, Andrew Spittle:

“Quero que este seja um processo contínuo em que defendemos regularmente a exclusão de conteúdos anteriores com base nas preferências atuais. Pediremos que o conteúdo seja excluído e removido de quaisquer treinamentos futuros. Acredito que os parceiros honrarão isso com base em nossas conversas com eles até o momento. Não creio que eles ganhem muito ao mantê-lo”, diz o executivo.

Controvérsias

Apesar da opção para conter o compartilhamento de dados, algumas dúvidas pairam no ar. Em outro diálogo interno, o gerente de produto do Tumblr, Cyle Cage, cita uma compilação de dados controversa que entrou em um pacote que seria compartilhado com os novos parceiros.

É o caso de publicações de blogs com senha, conteúdos que foram excluídos, suspensos ou marcados como “explicito”, além de respostas privadas e posts de grandes parceiros, como o antigo blog de música da Apple. Os engenheiros, porém, prepararam uma lista para excluir os dados que não deveriam entrar no pacote.

Continua após a publicidade

Não está claro, no entanto, se essas informações chegaram a ser repassadas para as empresas responsáveis pelo algoritmos de IA.

Automattic confirma parcerias

No seu site, a Automattic disse que trabalha “diretamente com empresas selecionadas de IA, desde que seus planos estejam alinhados com o que interessa à nossa comunidade: atribuição, cancelamento e controle”. Os seus parceiros, por sua vez, devem respeitar as configurações para cancelar o compartilhamento de dados.

“Também planejamos dar um passo adiante e atualizar regularmente todos os parceiros sobre pessoas que recentemente optaram por sair e pedir que seu conteúdo seja removido de fontes anteriores e de treinamentos futuros”, diz a publicação.

Continua após a publicidade

A empresa ainda ressaltou que vai compartilhar apenas conteúdos públicos do Tumblr e WordPress.com de usuários que deram o consentimento nas configurações das plataformas.

“Atualmente, não existe nenhuma lei que exija que os rastreadores sigam essas preferências, embora isso possa mudar em breve com a legislação pendente na União Europeia”, observa. “Como empresas respeitáveis seguem essas configurações, elas são o melhor método para impor como o conteúdo é rastreado na web.”

Fonte: 404 Media