Conteúdo
O que é robots.txt?
O arquivo robots.txt é um documento de texto que serve como recomendação para os mecanismos de busca. Ele permite que os proprietários de sites gerenciem quais páginas e seções de seu recurso podem ser indexadas pelos robôs de busca. Esse arquivo é colocado no diretório raiz do site e contém instruções que podem permitir ou proibir a varredura de determinadas páginas. Isso é importante para garantir a indexação correta e a otimização do site, evitando a exibição de informações confidenciais nos resultados de busca.
Para que serve o robots.txt?
A principal finalidade do uso do arquivo robots.txt é indicar aos mecanismos de busca quais páginas devem ser escaneadas e quais devem ser ignoradas. Se essas regras não forem especificadas, os robôs de busca podem indexar o site a seu critério, o que pode levar a consequências indesejadas, como a indexação de páginas administrativas ou de conteúdo duplicado. Isso, por sua vez, pode afetar negativamente a otimização de SEO e a promoção do recurso, já que os mecanismos de busca podem não reconhecer páginas importantes.
Além disso, o arquivo robots.txt ajuda a reduzir a carga no servidor, limitando o número de solicitações, o que também impacta positivamente na performance geral do site. Apesar de o arquivo não ser obrigatório, muitos especialistas em SEO recomendam seu uso como parte da otimização interna e externa.
Como criar um robots.txt?
A criação do arquivo robots.txt não requer habilidades especiais e pode ser feita com qualquer editor de texto, como o Bloco de Notas no Windows ou o TextEdit no macOS. No entanto, é importante seguir algumas regras de formatação:
- O nome do arquivo deve ser robots.txt;
- O arquivo deve estar no formato de texto (txt);
- A codificação do arquivo deve ser UTF-8.
Após criar o arquivo vazio, ele pode ser carregado no site. Por padrão, ele será considerado permissivo. Para gerenciar a indexação, é necessário especificar regras para páginas específicas. Normalmente, o acesso é fechado para páginas que não são destinadas ao público, como páginas de login, painéis administrativos e diretórios técnicos.
Diretivas do robots.txt
As diretivas do robots.txt são comandos que indicam aos robôs de busca como eles devem interagir com o site. Cada grupo de regras começa com a diretiva User-agent, que indica a qual robô específico as próximas instruções se aplicam. Por exemplo:
User-agent: Googlebot
Após a diretiva User-agent, seguem as instruções que podem incluir as diretivas Disallow e Allow. A diretiva Disallow é usada para proibir a indexação de determinadas páginas ou diretórios, enquanto Allow permite a indexação. Por exemplo, para fechar todo o site para indexação, pode-se usar a seguinte entrada:
User-agent: *
Disallow: /
Símbolos especiais no robots.txt
No arquivo robots.txt, também é possível usar símbolos especiais que clarificam as regras para os robôs de busca:
- * — símbolo que proíbe a indexação da página no endereço especificado;
- # — usado para adicionar comentários que são ignorados pelos robôs;
- $ — colocado no final da URL para desativar a ação do símbolo especial *.
Esses símbolos ajudam a configurar o arquivo de forma mais precisa, evitando a indexação de páginas indesejadas e mantendo o conteúdo importante seguro.
Como carregar e verificar o robots.txt?
Após a criação, o arquivo robots.txt deve ser carregado no diretório raiz do site. O método de upload depende da arquitetura do site e do servidor utilizado. Após o upload, é importante verificar a acessibilidade do arquivo, digitando na barra de endereços o seguinte formato:
https://seu_site.com/robots.txt
Para verificar a funcionalidade do arquivo, pode-se usar ferramentas de mecanismos de busca, como o Google Search Console para o Google e o Webmaster do Yandex para o Yandex.
Erros comuns na configuração do arquivo robots.txt
Alguns erros comuns na configuração do arquivo robots.txt podem levar à sua ineficácia. Aqui estão alguns deles:
- Diretiva User-agent vazia — não há indicação de para quais robôs as regras se aplicam;
- Falta do símbolo / ou * no início das regras Disallow ou Allow;
- A entrada Disallow: / para um site em funcionamento, resultando em bloqueio total da indexação;
- Falta do sinal : entre a diretiva e a regra, tornando-as incompreensíveis para os robôs.
Como os mecanismos de busca entendem o arquivo robots.txt?
Mecanismos de busca, como Google e Yandex, podem interpretar o arquivo robots.txt de maneiras diferentes. O Yandex segue rigorosamente as instruções, e se uma página estiver bloqueada pela diretiva Disallow, ela não será escaneada. Já o Google interpreta a diretiva Disallow mais como uma recomendação do que como uma proibição. Isso significa que, para proteger páginas confidenciais, é recomendável usar métodos adicionais, como senhas ou diretivas noindex.
