Google torna REP código aberto e pretende transformar protocolo em padrão da web

Por Rafael Rodrigues da Silva | 02 de Julho de 2019 às 16h15
Eurokeks
Tudo sobre

Google

Saiba tudo sobre Google

Ver mais

Depois de, duas décadas atrás, tentar (e falhar em) patentear o Robots Exclusion Protocol (REP) — um antigo protocolo usado por sites de busca para a indexação de páginas da web —, a Google agora está tentando transformá-lo no protocolo de indexação padrão oficial da internet, tornando-o uma ferramenta de código aberto.

Desenvolvido em 1994, o REP é o protocolo padrão usado pela maioria dos sites existentes hoje. Ele consiste basicamente em um arquivo com o nome robots.txt, onde ficam armazenadas instruções para indexadores da web. Esse indexadores (“robôs” de buscadores como o Google, que vasculham a todo o momento a internet atrás de novas atualizações em qualquer site) acessam esse arquivo .txt para verificar se há alguma regra especial para aquele site em específico (por exemplo, de não indexar ao resultado de buscas a página de equipe de um site) ou se é permitido fazer essa indexação de todo e qualquer conteúdo dele. Ainda que seja o mais utilizado, o REP não é um padrão oficial da internet, e é isso que o Google quer modificar.

Para isso, o movimento da Google em transformar o REP em código aberto é para que diversos problemas existentes hoje com o protocolo possam ser resolvidos, e a IETF (Internet Engineering Task Force, grupo que define todas as linguagens e protocolos padrão da web) possa reconhecer oficialmente o REP como o padrão.

Participe do nosso Grupo de Cupons e Descontos no Whatsapp e garanta sempre o menor preço em suas compras de produtos de tecnologia.

A maior parte desses problemas se referem a “cenários indefinidos”, ou seja, casos em que o robô indexador não está configurado para atuar. Por exemplo, no caso de acessar um site e, por algum motivo, não conseguir acessar o arquivo robots.txt naquele momento, mas o robô já souber as instruções existentes nele relativos à sua última visita, ele deve seguir as instruções da visita prévia ou deve ignorá-las e indexar todo o site, que é o que está programado para fazer caso não exista um arquivo robots.txt no site?

É para tentar solucionar esses desafios que, junto com o anúncio do REP como um protocolo aberto, a Google anunciou uma parceria com Martijn Koster, o criador desse protocolo, para ajudar a tornar o REP algo com qualidade para se tornar o padrão de toda a web. Koster irá se juntar a diversos outros programadores web da equipe da Google, que irão trabalhar para solucionar tudo o que impede o REP de ser reconhecido como a melhor opção para regras de indexação de sites.

A empresa ainda não publicou um documento completo com as mudanças que pretende fazer no protocolo, mas já indicou que algumas das melhorias serão permitir que o REP funcione também em conexões FTP e CoAP (e não apenas HTML como acontece hoje), limitar a quantidade mínima que pode ser lida e o tamanho máximo do arquivo robots.txt, aumentar o tempo que as instruções ficam armazenadas em cache, e corrigir diversos dos cenários indefinidos existentes no REP hoje.

Fonte: Google

Gostou dessa matéria?

Inscreva seu email no Canaltech para receber atualizações diárias com as últimas notícias do mundo da tecnologia.