Contenido
¿Qué es robots.txt?
El archivo robots.txt es un documento de texto que sirve como recomendación para los motores de búsqueda. Permite a los propietarios de sitios web controlar qué páginas y secciones de su recurso pueden ser indexadas por los robots de búsqueda. Este archivo se coloca en el directorio raíz del sitio y contiene instrucciones que pueden permitir o prohibir el escaneo de ciertas páginas. Esto es importante para asegurar una correcta indexación y optimización del sitio, evitando la aparición de información confidencial en los resultados de búsqueda.
¿Para qué sirve robots.txt?
El objetivo principal de utilizar el archivo robots.txt es indicar a los motores de búsqueda qué páginas deben escanear y cuáles ignorar. Si no se especifican estas reglas, los robots rastreadores pueden indexar el sitio a su criterio, lo que puede llevar a consecuencias no deseadas, como la indexación de páginas de servicio o contenido duplicado. Esto, a su vez, puede afectar negativamente la optimización SEO y la promoción del recurso, ya que los motores de búsqueda pueden no reconocer las páginas importantes.
Además, el archivo robots.txt ayuda a reducir la carga en el servidor limitando el número de solicitudes, lo que también tiene un efecto positivo en el rendimiento general del sitio. Aunque el archivo no es obligatorio, muchos especialistas en SEO recomiendan su uso dentro de la optimización interna y externa.
¿Cómo crear robots.txt?
Crear un archivo robots.txt no requiere habilidades especiales y puede hacerse con cualquier editor de texto, como el "Bloc de notas" en Windows o TextEdit en macOS. Sin embargo, es importante seguir algunas reglas de formato:
- El nombre del archivo debe ser robots.txt;
- El archivo debe estar en formato de texto (txt);
- La codificación del archivo debe ser UTF-8.
Después de crear el archivo vacío, se puede cargar en el sitio. Por defecto, se considerará como permitiendo. Para gestionar la indexación, es necesario especificar reglas para páginas concretas. Normalmente se cierran el acceso a páginas que no están destinadas al público, como páginas de inicio de sesión, paneles de administración y directorios técnicos.
Directivas de robots.txt
Las directivas de robots.txt son comandos que indican a los robots de búsqueda cómo deben interactuar con el sitio. Cada grupo de reglas comienza con la directiva User-agent, que indica a qué robot específico se dirigen las siguientes instrucciones. Por ejemplo:
User-agent: Googlebot
Después de la directiva User-agent siguen las instrucciones, que pueden incluir las directivas Disallow y Allow. La directiva Disallow se utiliza para prohibir la indexación de ciertas páginas o directorios, mientras que Allow permite la indexación. Por ejemplo, para cerrar todo el sitio a la indexación, se puede usar la siguiente entrada:
User-agent: *
Disallow: /
Símbolos especiales en robots.txt
En el archivo robots.txt también se pueden usar símbolos especiales que aclaran las reglas para los robots de búsqueda:
- * — símbolo que prohíbe la indexación de la página en la dirección especificada;
- # — se utiliza para agregar comentarios que son ignorados por los robots;
- $ — se coloca al final de la URL para anular la acción del símbolo especial *.
Estos símbolos ayudan a configurar el archivo de manera más precisa, evitando la indexación de páginas no deseadas y manteniendo seguro el contenido importante.
¿Cómo cargar y verificar robots.txt?
Después de crear el archivo robots.txt, es necesario cargarlo en el directorio raíz del sitio. El método de carga depende de la arquitectura del sitio y del servidor utilizado. Después de la carga, es importante verificar la disponibilidad del archivo ingresando en la barra de direcciones el siguiente formato:
https://su_sitio.com/robots.txt
Para comprobar el funcionamiento del archivo, se pueden utilizar herramientas de motores de búsqueda, como Google Search Console para Google y Webmaster de Yandex para Yandex.
Errores comunes en la configuración del archivo robots.txt
Algunos errores comunes en la configuración del archivo robots.txt pueden llevar a su no funcionalidad. Aquí hay algunos de ellos:
- Directiva User-agent vacía — no se indica para qué robots están destinadas las reglas;
- Falta del símbolo / o * al inicio de las reglas Disallow o Allow;
- Entrada Disallow: / para un sitio activo, lo que lleva a un bloqueo total de la indexación;
- Falta del símbolo : entre la directiva y la regla, lo que las hace incomprensibles para los robots.
¿Cómo entienden los motores de búsqueda el archivo robots.txt?
Los motores de búsqueda, como Google y Yandex, pueden interpretar el archivo robots.txt de diferentes maneras. Yandex sigue estrictamente las instrucciones, y si una página está cerrada con la directiva Disallow, no será escaneada. Google, por su parte, percibe la directiva Disallow más como una recomendación que como una prohibición. Esto significa que para proteger páginas confidenciales se recomienda utilizar métodos adicionales, como contraseñas o directivas noindex.
