Google vai usar dados públicos sobre você para treinar IA

Por André Lourenti Magalhães • Editado por Douglas Ciriaco | 04/07/2023 às 11:37 • Atualizado 04/07/2023 às 11:37

Compartilhe:

A nova política de privacidade do Google revela que a empresa pode coletar informações públicas disponíveis online para treinar os modelos de inteligência artificial do Bard e de outros produtos. O texto, que entrou em vigor no dia 1º de julho, mencionou a IA pela primeira vez nas informações sobre fontes de acesso público.

A partir de agora, qualquer informação que você publicar em diferentes plataformas pode ser usada para os treinamentos de IA generativa da empresa. Vale a pena lembrar que o Google pretende incorporar o Bard no buscador e também desenvolve um novo projeto de IA com base no software AlphaGO.

O texto modificado da política de privacidade informa que a Gigante de Mountain View pode “coletar informações disponíveis publicamente on-line ou de outras fontes públicas para ajudar a treinar os modelos de IA do Google e criar recursos como o Google Tradutor, o Bard e recursos de IA na nuvem”. Portanto, quem utiliza os serviços da empresa passa a concordar com a mudança nos termos.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

A versão atual traz uma grande diferença com relação à política de privacidade anterior, publicada em dezembro de 2022. Na edição antiga, o mesmo trecho não tinha qualquer menção à IA e citava apenas que a empresa poderia coletar informações publicamente para “ajudar a treinar os modelos de idiomas do Google e criar recursos como o Google Tradutor”.

Treinamento de IA e extração de dados

A alteração da política de privacidade do Google vai ao encontro de assuntos recorrentes envolvendo o treinamento de inteligência artificial: a fonte das informações e a extração de dados de outras plataformas online.

Ferramentas de IA generativa como Bard, ChatGPT e Bing funcionam a partir da coleta constante de informações em páginas da web. Assim, o uso de conteúdos públicos gera impasses sobre a propriedade intelectual e a autoria das respostas emitidas por cada ferramenta.

Além disso, a extração dos dados também causa dor de cabeça para algumas plataformas. O Reddit limitou o uso da API alengando controlar o treinamento de IA com os dados da rede social, enquanto o Twitter bloqueou o acesso às publicações por dispositivos sem cadastro — nesse caso, Elon Musk disse que a ação foi feita para controlar a “pilhagem de dados”.

A reportagem do Canaltech entrou em contato com o Google sobre o assunto, mas ainda não obteve resposta até a publicação deste texto. A matéria será atualuzada assim que houver mais informações.