Como os dados na web são coletados para desenvolver IAs

Por Guilherme Haas | 22/07/2024 às 13:33

Compartilhe:

Empresas de tecnologia usam sofisticados métodos de coleta de dados na internet para desenvolver modelos de inteligência artificial. O processo envolve a utilização de robôs, conhecidos como crawlers ou spiders, que navegam pelos sites para extrair e categorizar informações. Embora essa prática seja essencial para o avanço da IA, ela levanta questões legais e éticas, especialmente no que diz respeito aos direitos autorais e à privacidade.

Coleta de dados com crawlers

Crawlers são programas automatizados que percorrem a web para coletar dados. Eles enviam um sinal aos servidores dos sites, solicitando o código HTML que compõe as páginas. Com base nesses códigos, os crawlers extraem metadados, textos, imagens, vídeos e outros elementos.

O Canaltech está no WhatsApp!Entre no canal e acompanhe notícias e dicas de tecnologia

Continua após a publicidade

Os crawlers tradicionais, como os usados pelo Google e Bing, indexam conteúdos para que possam ser facilmente encontrados pelos mecanismos de busca. Eles seguem links de página em página, coletando informações que ajudam a categorizar e listar os conteúdos disponíveis online.

Já os rastreadores utilizados para treinamento de IA vão além, raspando todo o conteúdo das páginas para criar bases de dados massivas que alimentam modelos de machine learning. Isso significa que, em vez de coletar apenas metadados, eles extraem todos os dados disponíveis em um site.

Raspagem de sites

A raspagem de sites, também conhecida como web scraping, é uma técnica amplamente utilizada pelas empresas de tecnologia para o treinamento de modelos de IA. A raspagem pode ser realizada de diversas maneiras, desde o uso de ferramentas prontas até a programação de scripts personalizados em linguagens como Python.

Para realizar a raspagem de dados, utiliza-se geralmente bibliotecas e frameworks como BeautifulSoup, Scrapy e Selenium. Essas soluções permitem navegar por páginas web, identificar e extrair elementos específicos, como textos, imagens e links. Os dados coletados são então limpos e organizados, removendo duplicatas e irrelevâncias, antes de serem utilizados no treinamento de modelos de aprendizado de máquina.

A vantagem dessa abordagem é a capacidade de coletar dados atualizados e variados, essenciais para treinar modelos de IA que precisam lidar com uma ampla gama de informações e contextos.

Permissões, restrições e técnicas avançadas

Continua após a publicidade

Big Techs como Google e OpenAI divulgam informações sobre seus rastreadores e permitem que os sites bloqueiem o acesso a seus conteúdos através de arquivos "robots.txt". No entanto, nem todas as empresas têm a mesma prática, e muitas vezes, programadores encontram maneiras de driblar essas restrições.

Para lidar com sites dinâmicos e mudanças frequentes na estrutura das páginas, algumas empresas de tecnologia utilizam ferramentas de web scraping baseadas em IA para realizar a coleta de dados.

Diferente dos métodos tradicionais, essa abordagem emprega aprendizado de máquina e processamento de linguagem natural para interpretar e extrair dados complexos de páginas web. Além disso, essas ferramentas empregam métodos para resolver CAPTCHAs, rotacionar endereços IP e imitar o comportamento humano para evitar detecções e bloqueios.

Questões legais ao redor do mundo

Continua após a publicidade

A mineração de dados na internet para treinamento de IA é uma prática controversa e sujeita a diferentes interpretações legais ao redor do mundo. Em alguns países, como o Japão, o uso de dados para treinamento de IA é frequentemente considerado “uso justo”, o que significa que não é necessário pagar direitos autorais para o uso de dados públicos.

No entanto, em outras regiões, como na União Europeia, a legislação exige que os donos de sites sejam consultados antes da coleta de dados e que tenham o direito de recusar a utilização de seu conteúdo.

Alguns casos práticos ilustram a complexidade que envolve o uso de dados da web. O projeto Google Books, por exemplo, envolveu a digitalização de milhões de livros sem permissão explícita dos detentores de direitos autorais. O caso gerou uma longa batalha judicial, com a decisão final de que a digitalização e exibição limitada de trechos é considerada “uso justo”, permitindo ao Google continuar o projeto sob certas condições.

Continua após a publicidade

Outro exemplo é o caso da Microsoft, que enfrentou críticas em 2021 por usar imagens da web para treinar seus modelos de reconhecimento facial sem permissão dos proprietários das imagens. A empresa ajustou suas práticas em resposta às críticas, demonstrando a necessidade de maior transparência e consentimento.

No Brasil, a regulamentação sobre IA está em desenvolvimento e segue modelos semelhantes aos da UE. O projeto de lei em discussão propõe a proibição da coleta de dados sem consentimento e prevê a remuneração pelo uso de conteúdos protegidos por direitos autorais.

Leia também:

Continua após a publicidade

Direitos dos criadores de conteúdo

As medidas de regulamentação em discussão no Brasil e no mundo visam criar um equilíbrio entre o avanço tecnológico e a proteção dos direitos dos criadores de conteúdo.

Esses autores, que investem tempo e recursos significativos na produção de materiais originais, frequentemente não recebem reconhecimento ou compensação quando seus trabalhos são usados sem permissão explícita. Isso não apenas viola direitos autorais, mas também pode afetar negativamente os rendimentos e a sustentabilidade profissional desses criadores.

Essa questão não se limita apenas criadores de conteúdos para redes sociais, mas também impacta escritores, jornalistas, músicos, designers e artistas — o que evidencia o tamanho dos desafios que a IA impõe sobre a proteção de direitos intelectuais e a justiça econômica de diferentes profissionais.