Robots

« Volver al Diccionario SEO

El archivo robots.txt es uno de esos ficheros pequeños pero matones que decides colocar en la raíz de tu sitio web para hablar directamente con los motores de búsqueda. Les dices a los bots: «Tú puedes entrar aquí. Pero aquí, ni te acerques.»

Es un documento de directrices que le indica al bot de Googlebot (y compañía dependiendo si pones el User-agent específico) qué partes de tu web debería rastrear y qué partes debería ignorar.

Ahora bien, ¿todos los bots respetan estas directrices?

Google, Bing y otros motores de búsqueda reputados suelen hacerte caso. Pero hay cientos de crawlers por ahí sueltos (de scrapers, bots de spam o competidores curiosos) que entran aunque les pongas un cartel de “prohibido el paso”.

Es decir, el robots.txt no es una muralla, es más bien un cartel de cuidado con el perro. Para seguridad real, necesitas firewalls, reglas de servidor bloqueando user-agent o incluso user-agent no definido, y demás guarrerías técnicas.

Pero volvamos a explicar cómo se realiza este archivo robots.txt. Su formato es simple:

User-agent: *
Disallow: /privado/
Allow: /publico/

Le dices qué agente (robot) y qué reglas aplicar. Puedes permitir, bloquear, priorizar el crawl, aunque no evitar la indexación si ya se conocía esa URL (para eso necesitas otras técnicas, como el noindex). Aquí defines qué bots (user-agent) y qué rutas permitir o bloquear.

Rastreo ≠ Indexación ≠ Clasificación

Si el rastreo es el proceso de los rastreadores (o «bots») tanto de los motores de búsqueda (como Googlebot) como de otras webs que hacen scraping de información con el fin de explorar la web en busca de contenido.

Estos bots utilizan varias fuentes, entre ellas robots.txt del dominio. Otra manera que Google tiene de descubrir una web es mediante un enlace interno u externo o mediante un sitemap que no hayas bloqueado.

En cambio, la indexación es el proceso de almacenar ese contenido en la base de datos del motor de búsqueda.

Finalmente hay otro proceso de clasificación (o ranking), donde el especialista SEO busca mejorar la clasificación de ese contenido dentro de las SERP.

Y sí, aunque pongas «Disallow» a una URL, pero resulta que está enlazada desde otros sitios, es decir, esta URL tiene backlinks… Google puede acabar indexándola (en el caso de que sea indexable). Aunque le hayas dicho a robots.txt que no la rastree.

Si realmente quieres evitar la indexación, no basta con el robots.txt. Tienes que usar la etiqueta noindex. Pero ojo, no hagas esto si la URL ya está indexada, pues no podrá acceder a ella para ver la etiqueta noindex. Es decir, si la bloqueas en robots y le pones un noindex, Google no puede leer ese noindex.

Dicho de otra forma:

  • Si no quieres que rastree una URL no indexada, usa robots.txt
  • Si no quieres que la indexe, sea una URL indexada o no, usa noindex
  • Si no quieres ni rastreo ni indexación, primero dejala rastrear, luego mete el noindex y cuando Google lo procese, ya puedes bloquear por robots.

Es importante seguir este orden.

Relevancia dentro del SEO: B - Importante
Sinónimos:
robots.txt
Scroll al inicio