Quase 40% das páginas da web de 2013 sumiram, diz estudo
Por Guilherme Haas • Editado por Douglas Ciriaco |

Um novo estudo sobre a disponibilidade de páginas e conteúdos na web revela que uma grande quantidade de informações desapareceu da internet nos últimos anos e gera links quebrados nos sites. Segundo os dados do Pew Research Center, 38% das as páginas da web que existiam em 2013 já não estão mais acessíveis. Olhando para o período entre 2013 e 2023, cerca de um quarto de todas as páginas estão indisponíveis.
Além das páginas na web, a pesquisa também analisou o desaparecimento de publicações na plataforma X (o antigo Twitter) — e um em cada cinco tuítes não estava mais com visibilidade pública dentro de três meses após a postagem.
Sumiço de conteúdos na web
Para realizar o estudo, o Pew Research Center coletou uma amostra de cerca de 1 milhão de páginas da web dos arquivos do Common Crawl — um serviço que guarda o histórico da internet com registros dos sites em diferentes momentos.
Aproximadamente 90 mil páginas foram analisadas em cada ano entre 2013 e 2023 para elaborar a estatística de disponibilidade dos conteúdos. A amostragem revelou que 25% de todas essas páginas não existem mais na internet.
Segundo o resultado do estudo, há dois tipos diferentes de links quebrados: 16% são de páginas individuais que não estão mais acessíveis, mas que são de sites ainda funcionais; enquanto 9% são de domínios inteiros que já não estão mais no ar.
Páginas mais antigas são, como era de se esperar, as que tiveram maior parcela de links inacessíveis — 38% da amostra de 2013 não estavam mais disponíveis em 2023. Todavia, os anos subsequentes também apresentam uma porcentagem elevada de conteúdos “extintos”:
Ano | % de links quebrados |
2013 | 38% |
2014 | 35% |
2015 | 31% |
2016 | 30% |
2017 | 26% |
2018 | 31% |
2019 | 32% |
2020 | 27% |
2021 | 22% |
2022 | 15% |
2023 | 8% |
Segundo o Pew Research Center, 23% dos sites de notícias contêm links quebrados independente da audiência e do tráfego que possuem. Já entre as páginas do governo, a parcela cai para 21%. Na Wikipédia, porém, os dados são ainda mais alarmantes. A pesquisa mostra que 54% dos links nas seções de referência já não estão mais acessíveis.
Tuítes que não estão mais visíveis
Na análise sobre a rede social X (quando ainda se chamava Twitter), o estudo coletou quase 5 milhões de tuítes publicados entre 8 de março e 27 de abril de 2023 e monitorou a disponibilidade dessas postagens até junho.
Ao final do período de observação, a pesquisa verificou que 18% dos conteúdos já não estavam mais visíveis na plataforma. Segundo o estudo, “na maioria dos casos, isso ocorreu porque a conta que postou originalmente o tuíte se tornou privada, suspensa ou totalmente excluída”.
A partir da amostragem, o Pew Research Center identificou ainda algumas curiosidades: tuítes removidos ou excluídos tendem a vir de contas mais recentes, com relativamente poucos seguidores e atividade modesta na rede social.
Além disso, o estudo verificou que não havia diferença no porcentual de remoção entre retuítes, posts com citações e tuítes originais, mas o número é menor quando se trata de respostas na plataforma —apenas 12% das respostas estavam inacessíveis após o período de monitoramento.
Fonte: Pew Research Center