Cuando no quieres que las arañas/bots rastreen ciertas paginas de tu web la mejor alternativa es robots.txt.
Ya que te permite definir qué directorios son accesibles y cuáles no por los buscadores.
Pero por contra tiene varios inconvenientes cómo puede ser que el PageRank no fluye entre las páginas bloqueadas y tampoco sirve para desindexar.
Para ello haremos uso de la etiqueta meta robots.
Indice de contenidos
Qué es la etiqueta meta robots
Meta robots es una etiqueta HTML que se usa para, al igual que robots.txt dar instrucciones a las arañas.
Con la etiqueta meta robots podemos decirle a Google qué páginas puede rastrear pero no indexar. Esto es algo que con robot. Txt no es del todo fiable ya que el robot puede seguir accediendo a la URL haciendo caso omiso de las instrucciones de disallow.
Ventajas de meta robots frente a robots.txt
La diferencia es que con robots.txt hacemos que los buscadores no rastreen la URL y por tanto no la indexen pero tiene como inconveniente de que si la URL ya ha sido indexada previamente el robot de Google pasará olímpicamente de la directiva.
En cambio con el meta robots podemos decirle siempre que queramos que acceda a la página pero que no la indexe y esto también servirá para que según le pasa ar en futuras ocasiones desindexar del índice este resultado.
Pero la diferencia fundamental reside en que si bloqueamos con el robots un directorio el robot no podrá acceder a los enlaces en dichas páginas o en dicho directorio por lo tanto no transmitir a PageRank.
Sin embargo con el meta robots si lo hará porque rastrear la página pero no la indexará. Pero sí que seguir a los enlaces que puede haber en esa página.
Cómo usar la etiqueta meta robots
La etiqueta meta robots se introducen dentro de las etiquetas <head> y </head>.
Este sería el código de la etiqueta:
<meta name=”robots” content=”index,follow”/>
Los posibles valores del atributo content son:
- index/ noindex: con esto indicamos si queremos que se incluye esta página en el índice de los buscadores.
- follow/ nofollow: indica si los enlaces que se encuentran en esta página deben ser rastreados o no.
Con estos cuatro valores podemos hacer las siguientes combinaciones que podría haber dentro de content:
- noindex, follow: evita la indexación de la página que contiene este ticket está pero permite el rastreo de todos sus enlaces.
- index, follow: permite la indexación de esta página así como el rastreo de todos sus enlaces.
- index, nofollow: permite la indexación de la página que contiene este ticket está pero no permite el rastreo de todos los enlaces que pueda contener esta página.
- noindex, nofollow: no permite la indexación de la página actual ni el rastreo de los enlaces que se hayan dentro.
Si no queremos que alguna página no se indexe la combinación que deberíamos usar es la de noindex/follow, de esta forma permitiremos que se transmite el PageRank hacia enlaces que pueda contener esta página.
No sólo eso sino que si esta página recibe enlaces externos estos transmitiran autoridad a los enlaces de esta página y si ponemos no follow no traspasará el PageRank de los enlaces externos.
El código que deberíamos poner es:
<meta name=”robots” content=”noindex,follow”/>
Configurar el meta robots en WordPress con SEO by Yoast
Si usas WordPress esto puede ser configurado en las opciones de cada entrada de forma muy sencilla.
Aquí puedes ver un pantallazo de como quedaría:
¿Entonces qué hacemos con robots.txt?
Este fichero sigue siendo muy importante ya que se puede bloquear directorios enteros antes de que los rastreadores entren en esa URL.
Otra ventaja muy importante es que los bots no acceden a la página que se está restringiendo sino que directamente solo van a leer el robots.txt y ya sabrán que no tienen ni siquiera que ir.
Aunque como ya comenté recordar que sí el bote accedió alguna vez a esa URL seguramente haga caso omiso del robot.txt.
Espero que estas aclaraciones te sirvan para diferenciar perfectamente cuando usar robots.txt o el meta robots.