Publicidade

O que é web scraping e como ocorre?

Por| Editado por Claudio Yuge | 23 de Outubro de 2021 às 16h00

Link copiado!

Divulgação/Sambeet D/Pixabay
Divulgação/Sambeet D/Pixabay

Usando a internet e as redes sociais em nosso cotidiano, deixamos muitas informações nossas disponíveis publicamente na rede, sem perceber. É fácil esquecer que, no começo dos anos 2000, parecia um ato insano usar seu nome real em um fórum, enquanto em 2021 a situação mais comum é encontrar o nome completo e a cidade onde um usuário mora a partir da bio do Instagram

Ao passo que essa normalização do compartilhamento de dados mudou completamente a sociedade, transformando a internet em algo útil e efetivo, ela também aumentou a exposição das pessoas. E muitos criminosos se aproveitam disso para realizar golpes, usando um método chamado web scraping.

O web scraping (raspagem de rede, em tradução livre), também conhecido como extração de dados da web, é o nome dado ao processo de coleta de dados estruturados da web de maneira automatizada. Em geral, esse método é usado por pessoas, empresas e, preocupantemente, criminosos, que desejam usar a vasta quantidade de dados da web disponíveis publicamente para tomar decisões mais inteligentes ou cometer crimes.

Continua após a publicidade

Como é realizada a raspagem de dados

O processo básico de raspagem, na verdade, é realizado diariamente por boa parte da população mundial, no ato de copiar e colar informações de um site para outro meio, a diferença é que a raspagem de rede faz isso em uma escala microscópica e com automação inteligente, para extrair milhões de dados de páginas da internet.

A raspagem de rede é executada a partir do uso de duas ferramentas, o web crawler (rastreador de rede, em tradução livre) e o web scraper (raspador de rede, também em tradução livre). 

Continua após a publicidade

O rastreador, popularmente chamado de "aranha", é uma inteligência artificial que navega na internet procurando e indexando conteúdos. Depois disso, o raspador, que é uma ferramenta especializada, checa os conteúdos indexados pela "aranha", extraindo dados com rapidez e precisão que estejam de acordo com os localizadores nas linguagens que eles foram implementados na página web, como CSS, regex, entre outros. 

Os perigos da raspagem de dados

Para empresas, a raspagem de dados serve como uma ferramenta para, por exemplo, melhor direcionamento de campanhas publicitárias. A partir de informações de sites da internet ou de respostas de enquetes digitais, é possível descobrir interesses ou o trabalho de muitas pessoas, abrindo a porta para marketing mais efetivos. Porém, para os criminosos, essas mesmas informações podem ser usadas de forma nociva, ou mesmo só para lucrar.

Mas a facilidade de realização da raspagem de dados é preocupante, conforme explicou Cecilia Pastorino, pesquisadora da ESET América Latina:

Continua após a publicidade
"Raspagem de dados é uma técnica para extrair informações de sites em massa e por meio de scripts automatizados. Essa técnica é utilizada para indexação de sites ou análise de dados de diferentes páginas e se tornou muito popular em algumas ações de marketing digital, como melhorar o posicionamento na web ou obter métricas. Isso torna muitas das ferramentas de raspagem disponíveis na Internet e muito fáceis de usar."

Um exemplo recente foi noticiado em 4 de outubro, dia em que os serviços do Facebook sofreram um "apagão" e ficaram indisponíveis por mais de 6 horas. No dia, foi encontrado em um conhecido fórum de comercialização de dados virtuais roubados uma postagem que dizia ter posse de informações como nome, e-mail, localização, gênero e número de telefone de mais de 1,5 bilhão de usuários da rede social criada por Mark Zuckerberg. Até hoje não existe confirmação se este vazamento foi real, já que em 6 de outubro o tópico de vendas foi apagado do fórum em questão.

Mas, caso for real, a disponibilidade de informações como número de telefone e localização já compromete a segurança geral dos usuários afetados, e dados como o nome e o e-mail podem ser usados para direcionar golpes de sequestro virtual (ransomware), phishing, pharming e golpes de engenharia social com mais facilidade.

Continua após a publicidade

A melhor forma de evitar que dados pessoais sejam raspado, além de não os disponibilizar na internet, é que a população em geral não deixem seus perfis em redes sociais, seja Facebook, Instagram ou Twitter, totalmente públicos. Além disso, é sugerido que enquetes oferecidas por empresas ou desenvolvedoras desconhecidas sejam evitadas, já que existem grandes chances delas serem parte de esquemas criminosos.

 

Fonte: GoCache