Posts de Tumblr e WordPress serão usados para treinar IA
Por Bruno De Blasi • Editado por Douglas Ciriaco | •

Dados do Tumblr e do WordPress.com serão vendidos para o treinamento de inteligência artificial (IA). A Automattic, dona das plataformas, está prestes a fechar um contrato com OpenAI e Midjourney para oferecer acesso às informações que ajudariam a desenvolver novos modelos e aprimorar as tecnologias já existentes.
Os detalhes foram revelados pelo site 404 Media, que tevee acesso a documentos internos sobre a transação entre as empresas. A Automattic também confirmou no seu blog oficial que faz parcerias com companhias de IA, mas não citou nomes.
Poder de escolha
A aproximação será destinada apenas aos conteúdos disponíveis nas redes de blogs Tumblr e WordPress.com, sem atingir o programa WordPress para ser instalado em servidores próprios. Por outro lado, ainda não há informações sobre o impacto do acordo com sites que utilizam o plugin Jetpack.
Com a parceria, as publicações disponíveis em blogs criados em qualquer uma das duas ferramentas serão coletadas para treinar modelos de inteligência artificial. Todavia, a Automattic liberou um botão para que os proprietários das páginas impeçam o compartilhamento das informações para a OpenAI, Midjourney e demais parceiros.
Essa decisão chegou a virar um questionamento interno quando um funcionário perguntou se há garantias de que os parceiros não vão coletar os dados caso os usuários recusem. A resposta veio do chefe de IA da Automattic, Andrew Spittle:
“Quero que este seja um processo contínuo em que defendemos regularmente a exclusão de conteúdos anteriores com base nas preferências atuais. Pediremos que o conteúdo seja excluído e removido de quaisquer treinamentos futuros. Acredito que os parceiros honrarão isso com base em nossas conversas com eles até o momento. Não creio que eles ganhem muito ao mantê-lo”, diz o executivo.
Controvérsias
Apesar da opção para conter o compartilhamento de dados, algumas dúvidas pairam no ar. Em outro diálogo interno, o gerente de produto do Tumblr, Cyle Cage, cita uma compilação de dados controversa que entrou em um pacote que seria compartilhado com os novos parceiros.
É o caso de publicações de blogs com senha, conteúdos que foram excluídos, suspensos ou marcados como “explicito”, além de respostas privadas e posts de grandes parceiros, como o antigo blog de música da Apple. Os engenheiros, porém, prepararam uma lista para excluir os dados que não deveriam entrar no pacote.
Não está claro, no entanto, se essas informações chegaram a ser repassadas para as empresas responsáveis pelo algoritmos de IA.
Automattic confirma parcerias
No seu site, a Automattic disse que trabalha “diretamente com empresas selecionadas de IA, desde que seus planos estejam alinhados com o que interessa à nossa comunidade: atribuição, cancelamento e controle”. Os seus parceiros, por sua vez, devem respeitar as configurações para cancelar o compartilhamento de dados.
“Também planejamos dar um passo adiante e atualizar regularmente todos os parceiros sobre pessoas que recentemente optaram por sair e pedir que seu conteúdo seja removido de fontes anteriores e de treinamentos futuros”, diz a publicação.
A empresa ainda ressaltou que vai compartilhar apenas conteúdos públicos do Tumblr e WordPress.com de usuários que deram o consentimento nas configurações das plataformas.
“Atualmente, não existe nenhuma lei que exija que os rastreadores sigam essas preferências, embora isso possa mudar em breve com a legislação pendente na União Europeia”, observa. “Como empresas respeitáveis seguem essas configurações, elas são o melhor método para impor como o conteúdo é rastreado na web.”
Fonte: 404 Media