Robots.txt: O que é e os Erros que Você Não Deve Cometer

robots txt

O robots.txt é um arquivo que carrega as regras de acesso ao seu site para diferentes robôs de busca conforme o protocolo convencionado na Internet. Ele é um desses elementos que é simples demais para carregar tanto poder. Digo isso tendo em vista o sitemap xml, por exemplo.

O sitemap.xml é bastante importante, porém, ele carrega uma certa complexidade para funcionar; ele tem a sintaxe correta a ser utilizada, é importante notificar o Google através do Search Console que o arquivo existe; o Search Console valida alguns pontos antes de usar o arquivo. E se algo der errado, seu site não sofre.

Já com o robots.txt isso é mais simples. Existe uma sintaxe também que é bem mais fácil de lidar do que a sintaxe do Sitemap XML; o Google vai automaticamente seguir o que tiver sido definido no arquivo; ele sempre está com o mesmo nome e no mesmo local para qualquer site (a raíz do site); e qualquer vírgula fora de lugar, pode atrapalhar o Google a indexar as páginas do site de forma preocupante.

Sintaxe: Como escrever um Robots.txt

A sintaxe do arquivo se apoia basicamente em duas diretivas: Allow (permitir) e Disallow (não permitir); e um vocativo, uma indicação sobre qual User-agent deve seguir essas regras. Com esses três parâmetros você escolhe o que um robô de busca pode, ou não pode, acessar no site. Por exemplo:

User-agent: *
Disallow: /

Tudo proibido. Para qualquer user-agent (o símbolo * indica que a diretiva se aplica a qualquer um), qualquer página no site que comece com /, o acesso não é permitido. Como todas as páginas em um site começam com /, tudo proibido.

Veja como é simples fazer com que nenhum robô de busca tenha permissão para acessar página nenhuma de um site. 2 linhas.

Grandes poderes; grandes responsabilidades. Cuidado ao manipular esse arquivo, pois ele tem outras artimanhas. Uma regra muito comum de se usar é não proibir nenhuma página. Perceba como isso é diferente de permitir qualquer uma. Não percebeu? Veja as regras:

Não proibir nenhuma página:

User-agent: *
Disallow:

Como nenhum caminho foi indicado após o Disallow, automaticamente, nenhum caminho está proibido.

Permitir qualquer página:

User-agent: *
Allow: /

Novamente: veja como pequenos detalhes podem fazer toda a diferença entre o que o Google vai poder acessar no site, ou não.

Mais um detalhe: a URL indicada na diretiva segue a regra “tudo que começa com,” como você deve ter percebido. Assim, uma diretiva “Disallow: /pro” vai proibir o acesso a tudo que possa derivar daí:

  • /pro
  • /pro/
  • /profissional
  • /profissionais/

Outra vez: um pequeno detalhe que causar bastante transtorno.

Este tipo de situação, um radical de URL que é o mesmo de um diretório, precisa ser cuidado com a combinação das 2 diretivas. Por exemplo:

User-agent: *
Disallow: /pro
Allow: /pro/

Bloqueia tudo que começa com “/pro” e libera tudo que começa com /pro/, ou seja, o subdiretório. Nesse cenário, “/prova” fica bloqueado; mas “/pro/paginaX” fica liberado.

Vocativo: O user-agent

O user-agent é o vocativo, é a regra chamando pelo nome de quem quer acessar o site. O símbolo * implica qualquer user-agent, e isso também tem um porém: Quando você usa um user-agent específico, ele vai seguir apenas as diretivas estabelecidas para ele. Isso é algo que vejo muita gente se confundir. Mais um exemplo:

User-agent: *
Disallow: /
User-agent: Googlebot
Allow: /

Nesse caso, todos user-agents estão proibidos de acessar o site, exceto o Googlebot, que pode navegar à vontade.

Mais um:

User-agent: *
Disallow: /pro
User-agent: Googlebot
Allow: /

Apenas o Google tem acesso a tudo; os demais, podem acessar tudo, a menos que comece com /pro.

E para testar as regras do Robots.txt?

O Search Console tem a ferramenta ideal. Minha sugestão é que você prepare um grupo de URLs do site que em hipótese alguma podem ter o acesso impedido. Aí, a cada mudança no Robots.txt, você testa as regras contra esse grupo de URLs fundamentais. Por mais que algo saia do lugar, as URLs principais continuarão sem problemas.

E para aprender mais sobre tudo isso?

Esses assuntos eu explico em detalhes nos meus cursos na Overdrive Marketing.

Continue lendo:

Entre na conversa:

4 respostas para “Robots.txt: O que é e os Erros que Você Não Deve Cometer”

    1. Avatar de Frank Marcel

      Fala, Edivaldo! Depende da prioridade de bloqueio. O mais seguro é fazer o bloqueio com usuário e senha; em seguida seria o uso da meta tag robots/noindex; terceira opção, seria o robots.txt. Como disse no post, na Academia de Marketing Digital eu tenho um vídeo que discute essa questão em mais detalhes. Vale a pena conferir.

  1. Avatar de Frank Marcel

    Oi, Jaqueline!

    Simplesmente ocultar um texto literalmente, ou seja, apenas esconder dos mecanismos de pesquisa, pode levar a uma penalização do seu site, ou simplesmente impedir que ele apareça bem posicionado nos resultados de busca.

    Agora, se sua intenção é fazer algo como usar abas ou exibir o texto quando o usuário clica em alguma coisa, existem diferentes métodos usando jQuery que podem ser implementados facilmente.

    Procure por jquery fadein fadeout, por exemplo. É um efeito simples de implementar.

Deixe um comentário

O seu endereço de e-mail não será publicado. Campos obrigatórios são marcados com *

Mais no blog: