¿Qué es un robots txt y para qué sirve?

robots.txt

Un archivo robots txt, es un fichero de texto plano donde indicamos a Google las directrices y protocolos a seguir para un correcto rastreo de la web.

Una vez que una página de un sitio web devuelve un código de estado de servidor 200 OK, ya tiene permiso para empezar a rastrearla. Con las directrices que vamos a ver a continuación, le decimos a los bots de los buscadores a qué partes de la web queremos que acceda.

Existen 7 directivas importantes a la hora de implementar un robots txt:

  • User-agent: bot: Identifica al bot al que va dirigida.
  • Disallow: Path: No permite la entrada a una ruta especificada.
  • Allow: Path: Permite el acceso a una ruta especificada.
  • Crawl delay: Indica al bot el número de segundos que debe esperar entre rastreo de páginas. Es importante para ahorrar recursos de servidor.
  • Asterisco (*): Esta expresión sirve para comenzar una secuencia cualquiera de caracteres. Por ejemplo, todos los directorios que empiezan por “privado” serían “/privado*/”.
  • Dólar ($): Indica el final de una URL. Por ejemplo, si quieres indicar cualquier archivo que acabe con la extensión.PHP se utilizarías la expresión“/*.php$”.
  • Sitemap: URL: Indica la ruta al sitemap.

 

 Diferencias entre bloquear y no indexar

A menudo existe cierta confusión entre el robots txt y la etiqueta meta robots implementada en el código HTML de la página. Ambas comparten un mismo objetivo, pero se usan de manera independiente, te lo voy a explicar:

Mientras que en el fichero robots txt usamos la directriz “Disallow” para impedir el rastreo (estamos bloqueando) a una URL/directorio/carpeta, con la metaetiqueta meta name= «robots» content= noindex insertada en el código HTML, estamos impidiendo la indexación de la URL/directorio/carpeta.

Las siguientes líneas no tendrían sentido en un fichero robots txt ⛔:

User-Agent: Googlebot

Disallow: /blog/

Noindex: /blog/

Ya que se está impidiendo el acceso al blog, y todo lo que viene detrás, queda bloqueado a los motores de búsqueda.

Recomendaciones básicas

  1. El fichero robots txt debe estar alojado en la raíz del dominio y accesible a los bots.
  2. Acepta expresiones regulares (* y $).
  3. Es recomendable no bloquear el acceso a los CSS ni a los JS.
  4. Añade tu sitemap.
  5. Tamaño máximo recomendable: 500 mb.
  6. Sólo afecta al dominio en el que se encuentra.

⚠️ ¡¡Cuidado con el uso de protocolo http y https y con dominios con www y sin www!!. 😱

Cómo crear un archivo robots txt en WordPress utilizando Rank Math SEO

Para crear un archivo robots txt con Rank Math SEO, sigue los siguientes pasos:

  1. Accede a tu panel de wordpress.
  2. En la columna de Rank Math ve a ajustes de SEO y después Editar robots txt.
  3. Una vez ahí, modifica el editor y guarda los cambios.
robots txt
Editor de robots txt en Rank Math SEO

📣 Os dejo aquí el enlace para que os descarguéis este magnífico plugin ➡Rank Math SEO for WordPress 😊

Cómo validar tu fichero robots txt con Search Console

Visitando el siguiente enlace ➡ Robots.txt testing tool, podrás comprobar si las directrices que has incluido dentro de tu fichero son correctas o no. La herramienta probador de robots txt, te permite corregir errores y hacer comprobaciones, únicamente seleccionando la propiedad de tu dominio y verificando los “path” o rutas en la caja de texto que hay en la parte inferior. ¡Es así de fácil!

Ahora que ya tienes las nociones básicas para crear tu robots txt, puedes trabajar este archivo con la seguridad de estar dándole las directrices correctas a los motores de búsqueda. ¡Bien hecho! 👍

¿Te ha gustado el artículo? Pincha aquí para ver otros posts como este.

SUSCRÍBETE AL BOLETÍN DE NEWSLETTER

¿Te ha gustado el artículo?
Votos: 1 Promedio: 5
¡Comparte en tus redes sociales!