Publicidade
Economize: canal oficial do CT Ofertas no WhatsApp Entrar

Internet Archive já recuperou 9 milhões de links errados do Wikipedia

Por| 02 de Outubro de 2018 às 22h20

Link copiado!

Internet Archive já recuperou 9 milhões de links errados do Wikipedia
Internet Archive já recuperou 9 milhões de links errados do Wikipedia
Tudo sobre Wikimedia

A organização sem fins lucrativos Internet Archive recuperou mais de 9 milhões de links inutilizados do Wikipedia. Os links chamados de “quebrados” da tradução em inglês são aqueles que direcionam para páginas de erro 404 ou o aviso “page not found”. Tais páginas agora estão disponíveis no Wayback Machine, banco de dados da organização que arquiva páginas da internet desde 1996.

Em comunicado oficial, o Internet Archive informou que foram cinco anos de coleta de endereços de cerca de 300 sites da Wikipedia e suas versões em outras línguas. No total, são feitas mudanças em 20 milhões de URLs por semana.

O levantamento foi feito via inteligência artificial. A organização usou um sistema chamado IABot que reconhecia todo link em que fosse encontrado erro. O bot vasculhou páginas da Wikipédia em 22 idiomas diferentes e toda vez que descobria um, trocava pela versão arquivada no banco de dados do Wayback Machine.

Junto disso, a plataforma também conseguiu revisar e trocar os endereços de referência de mais de 6 milhões de links até agora. Os outros 3 milhões foram ajustados manualmente pela própria comunidade, também recuperando as últimas versões em funcionamento pelo banco de dados da Internet Archive.

Continua após a publicidade

Para ter uma noção da importância do trabalho, a Wikimedia Foundation, responsável por estatísticas da plataforma, fez um estudo sobre os principais sites de referências na plataforma da Wikipedia. Ou seja, toda vez em que uma pessoa clicava em uma referência ou nova página, a fundação anotava para qual site o usuário era levado.

De longe, o Wayback Machine foi o link externo mais visitado no período de 10 dias registrado pela fundação. Em média, o banco de dados recebe 25 mil visitas por dia pelos links ajustados pelo IABot.

Aprendizados

Continua após a publicidade

O grupo também revela alguns conhecimentos retirados desta experiência. O primeiro é o mais óbvio de que nem todo link da plataforma é de fato confiável só porque está lá. O principal problema, contudo, é que há dois tipos de links: os chamados “rot” são os referentes a quando há uma informação correta, mas o endereço para tal página está errado.

Outro é o chamado “drift”, quando o link ou conteúdo daquela página muda com o tempo e a informação original se perde. Para os pesquisadores, este segundo tipo é o que preocupa, pois o usuário pode achar que está vendo um conteúdo original, quando na verdade está sendo levado para uma outra versão daquela referência. “Não há como o usuário saber se o conteúdo para o qual está olhando não é o mesmo que o editor originalmente queria que fosse”, informa nota.

A organização agora quer criar uma nova ferramenta para aumentar a velocidade de reconhecimento e ajuste dos links com problema.

Fonte: Internet Archive