O robots.txt é um arquivo que carrega as regras de acesso ao seu site para diferentes robôs de busca conforme o protocolo convencionado na Internet. Ele é um desses elementos que é simples demais para carregar tanto poder. Digo isso tendo em vista o sitemap xml, por exemplo.
O sitemap.xml é bastante importante, porém, ele carrega uma certa complexidade para funcionar; ele tem a sintaxe correta a ser utilizada, é importante notificar o Google através do Search Console que o arquivo existe; o Search Console valida alguns pontos antes de usar o arquivo. E se algo der errado, seu site não sofre.
Já com o robots.txt isso é mais simples. Existe uma sintaxe também que é bem mais fácil de lidar do que a sintaxe do Sitemap XML; o Google vai automaticamente seguir o que tiver sido definido no arquivo; ele sempre está com o mesmo nome e no mesmo local para qualquer site (a raíz do site); e qualquer vírgula fora de lugar, pode atrapalhar o Google a indexar as páginas do site de forma preocupante.
Sintaxe: Como escrever um Robots.txt
A sintaxe do arquivo se apoia basicamente em duas diretivas: Allow (permitir) e Disallow (não permitir); e um vocativo, uma indicação sobre qual User-agent deve seguir essas regras. Com esses três parâmetros você escolhe o que um robô de busca pode, ou não pode, acessar no site. Por exemplo:
User-agent: * Disallow: /
Tudo proibido. Para qualquer user-agent (o símbolo * indica que a diretiva se aplica a qualquer um), qualquer página no site que comece com /, o acesso não é permitido. Como todas as páginas em um site começam com /, tudo proibido.
Veja como é simples fazer com que nenhum robô de busca tenha permissão para acessar página nenhuma de um site. 2 linhas.
Grandes poderes; grandes responsabilidades. Cuidado ao manipular esse arquivo, pois ele tem outras artimanhas. Uma regra muito comum de se usar é não proibir nenhuma página. Perceba como isso é diferente de permitir qualquer uma. Não percebeu? Veja as regras:
Não proibir nenhuma página:
User-agent: * Disallow:
Como nenhum caminho foi indicado após o Disallow, automaticamente, nenhum caminho está proibido.
Permitir qualquer página:
User-agent: * Allow: /
Novamente: veja como pequenos detalhes podem fazer toda a diferença entre o que o Google vai poder acessar no site, ou não.
Mais um detalhe: a URL indicada na diretiva segue a regra “tudo que começa com,” como você deve ter percebido. Assim, uma diretiva “Disallow: /pro” vai proibir o acesso a tudo que possa derivar daí:
- /pro
- /pro/
- /profissional
- /profissionais/
Outra vez: um pequeno detalhe que causar bastante transtorno.
Este tipo de situação, um radical de URL que é o mesmo de um diretório, precisa ser cuidado com a combinação das 2 diretivas. Por exemplo:
User-agent: * Disallow: /pro Allow: /pro/
Bloqueia tudo que começa com “/pro” e libera tudo que começa com /pro/, ou seja, o subdiretório. Nesse cenário, “/prova” fica bloqueado; mas “/pro/paginaX” fica liberado.
Vocativo: O user-agent
O user-agent é o vocativo, é a regra chamando pelo nome de quem quer acessar o site. O símbolo * implica qualquer user-agent, e isso também tem um porém: Quando você usa um user-agent específico, ele vai seguir apenas as diretivas estabelecidas para ele. Isso é algo que vejo muita gente se confundir. Mais um exemplo:
User-agent: * Disallow: / User-agent: Googlebot Allow: /
Nesse caso, todos user-agents estão proibidos de acessar o site, exceto o Googlebot, que pode navegar à vontade.
Mais um:
User-agent: * Disallow: /pro User-agent: Googlebot Allow: /
Apenas o Google tem acesso a tudo; os demais, podem acessar tudo, a menos que comece com /pro.
E para testar as regras do Robots.txt?
O Search Console tem a ferramenta ideal. Minha sugestão é que você prepare um grupo de URLs do site que em hipótese alguma podem ter o acesso impedido. Aí, a cada mudança no Robots.txt, você testa as regras contra esse grupo de URLs fundamentais. Por mais que algo saia do lugar, as URLs principais continuarão sem problemas.
E para aprender mais sobre tudo isso?
Esses assuntos eu explico em detalhes nos meus cursos na Overdrive Marketing.
Deixe um comentário