Crawl Budget : Cómo MEJORARLO en 10 pasos

hacks-para-mejorar-el-crawl-budget

¡Ey lector! ¿Cómo lo llevas?

Hoy vengo a hablarte de un tema poco conocido pero no menos importante: el Crawl Budget.

Debes saber que Google no indexa todas las páginas de un sitio web de golpe, el proceso puede tardar varias semanas. ¿Y qué te parecería hacerle las cosas más fáciles a Google para que indexe más páginas y tarde menos tiempo?

Si quieres saber todos los detalles píllate una birra, un gin o un café y prepárate para leer el post más completo acerca del Crawl Budget que vayas encontrar en el seo hispano.

Indice de contenidos

¿Qué es el Crawl Budget?

El crawl budget es número de páginas que Google rastreará por día en tu página web. Este número suele ser estable para cada página web pero ese número digamos que es tu budget o “presupuesto” diario, casi siempre viene determinado por lo organizada que esté y los enlaces entrantes que tenga tu web.

La araña podría recorrer tanto 6 páginas al día como 20 o 1000, por lo tanto es necesario saber que crawl budget tenemos asignado a nuestra web para saber si podemos optimizarlo más para que nuestros contenidos se indexen rápido.

Qué es un crawler

Las arañas o crawlers son programas de software que exploran conjuntos de páginas web, siguen los enlaces que contienen y exploran las páginas a donde dirigen y así sucesivamente hasta indexar millones de páginas almacenadas en miles de máquinas.

Este video con la explicación de Matt Cutts me encanta.

Cómo funciona un Crawler

Antes de nada deberíamos saber como funciona un crawler como GoogleBot.

  1. Lo primero que va hacer es revisar tu robots.txt para ver si sigue teniendo acceso permitido a tu página.
  2. Lo siguiente será obtener una lista de URLS y rastrearlas.
  3. Parseará el contenido de cada página.
  4. Envía el contenido a las máquinas donde se puntuará para su posterior ranking en el índice de Google.
Nota: El parseo analiza las etiquetas de un documento y recupera la información. Google necesita incorporar estos documentos a su base de datos para evaluarlos y otorgarles una puntuación en su índice.

Puedes leer más sobre el funcionamiento de GoogleBot aquí.

Cómo saber cuál es nuestro Crawl budget actual

Para saber que Crawl Budget nos ha asignado Google lo único que tenemos que hacer es ir a Webmastertools(Search console):

  • Entrar en Rastreo
  • Entrar en Estadísticas de rastreo

Aquí va mi Budget para seorocket.es:

estadisticas-de-rastreo

Cómo puedes ver en rastreo por días se puede apreciar como tengo una media de 50 páginas rastreadas por día, para mi blog de SEO está estupendo porque saco muy pocos post al mes entonces está claro que la cantidad de páginas rastreadas por día es más que suficiente a primera vista.

Es curioso que cuanta más transcedencia tiene el blog más aumenta esta cantidad como se puede apreciar en el último tramo donde sube de 100.

Esto se debe efectivamente a más enlaces entrantes hacia el blog con menciones, las arañas llegan a mí desde otras webs. Desde que empecé a editar este post mi presupuesto de rastreo ha crecido hasta 65.

¿Qué ocurre si tengo un Crawl budget bajo?

Imagínate que tienes una web con 20.000 páginas siendo exagerado y el Crawl Budget diario es de 50 páginas.

Tardaría más de 1 año en recorrer todas las páginas porque a 50 x 365 = 18.250. Con lo cuál, en este caso tendríamos que hacer optimizaciones para que este rastreo fuera más efectivo sino todos nuestros esfuerzos se verían truncados con muchas páginas sin indexar.

Cómo optimizar el Crawl Budget paso a paso

Cómo dijo un día Rand Fishkin, en tu página todo usuario debería llegar a todo el contenido en 3 clics, si lo piensas es una buena norma para hacer la vida más fácil a nuestras queridas arañitas.

A continuación te explico varias formas de mejorar el crawl budget de tus sitios haciendo que GoogleBot no pierda tiempo en páginas que no tienen ningún valor y centre toda su atención en lo importante.

1. Optmizando el Robot.txt

¿Has pensado alguna vez para que sirve el robot.txt? Este fichero sirve para decirle a GoogleBot donde debe y no debe gastar Crawl Budget. Si hay zonas de tu web que no deben ser rastreadas deberán indicarse aquí.

Cuánto menos tiempo le hagamos gastar a GoogleBot en secciones innecesarias mejor funcionará la indexación de nuestro sitioy llegará un momento en que con cada publicación indexaremos más rápido nuestros contenidos y podremos rankear antes.

Las dos mejores líneas que puedes tener en tu robot.txt

Disallow: /*?*
Disallow: /*?
¿Qué hacen estas líneas?

Estas líneas evitan que se indexen resultados de nuestras páginas donde se incluyen búsquedas o otros tipos de basura que no queremos tener en el índice de Google.

Más lineas importantes:
User Agent: *

Allow: /wp-content/uploads/

Disallow: /wp-content/plugins/

Disallow: /wp-content/themes/

Disallow: /wp-includes/

Disallow: /wp-admin/

 

Desindexar cosas que empiezan por wp-
Disallow: /wp-

No permitimos indexar búsquedas
Disallow: /?s=
Disallow: /search

Tampoco permitimos estas lineas:
Disallow: /feed

Disallow: /comments/feed

Disallow: /*/feed/$

Disallow: /*/feed/rss/$

Disallow: /*/trackback/$

Disallow: /*/*/feed/$

Disallow: /*/*/feed/rss/$

Disallow: /*/*/trackback/$

Disallow: /*/*/*/feed/$

Disallow: /*/*/*/feed/rss/$

Disallow: /*/*/*/trackback/$

El robots.txt es idóneo para no permitir acceder a ciertos ficheros o carpetas en tu servidor.

Incluir el sitemap en el robot.txt

Una cosa importante y que nadie hace es poner el sitemap en el robot.txt, le facilitamos mucho la tarea indicandole ahí nuestros posts y páginas más importantes.

Yo lo tengo así:

sitemap-en-el-robot-txt

La imagen esta mal. Deberia tener antes de cada url Sitemap al igual que esta el Disallow.

Cómo editar el robots txt

Si tienes WordPress y no quieres complicarte con Yoast Seo puedes hacerlo muy fácil a través de Herramientas>>Editor de archivos.

modificar-robots-txt

Sino en la raíz de tu web ya debería estar creado. Es un simple txt, puedes ver el mío aquí.

2. Usar la etiqueta META ROBOTS

Esta etiqueta meta robots podemos usarla a nivel individual en cada página de nuestro sitio:
<META NAME=”ROBOTS” CONTENT=”NOINDEX, FOLLOW”>
Podemos usarlo para decirle que no indexe la página pero que puede seguir rastreando si hay enlaces en este contenido.

Y aquí viene la gracia.

Si solo usamos un disallow en robots.txt puede que la página se indexe aunque no permitamos el crawleo ¡Sí es de locos! Pero puede aparecer en el buscador si buscamos nuestro dominio con el operador “site:”. Por lo tanto para que eso no ocurra además debemos usar el meta name robots haciendo que no indexe la página.

Recuerda que esta etiqueta se debe poner en dentro del <head></head> de cada página, si usas wordpress con Yoast o similar ya tiene una opción de configuración en cada post/página.

3. Usar URL canónicas

Esta opción está bien para indicar al buscador que una página pertenece a otra y además para pasar el link juice. Se usa mucho por ejemplo para una categoria de una tienda donde dentro tenemos varios productos. No queremos dividir la fuerza de esa categoría en los productos, variedades de color,etc….

Imaginemos que tenemos la categoria “zapatos de hombre”. Dentro tenemos muchos zapatos, digamos 100 zapatos distintos.

Lo primero que nos va pasar si los dejamos indexar es que se producirá una canibalización de palabras claves brutal.

La categoría y esos 100 productos competirán seguramente por la keyword zapatos de hombre. Además de eso consumiremos mucho más presupuesto diario para rastrear todas estas urls.

La solución en principio parece fácil, usar el META ROBOTS en cada página para indicar que no indexe todos esos productos y además usar un canonical para indicar que esas páginas son parte de la categoría. De esta forma la categoría cogerá toda la fuerza proveniente de sus productos.

¡Ojo! Si usamos el robots.txt para no permitir el rastreo a los productos el buscador no podrá ver el canonical de vuelta hacia la categoría.

Por lo tanto debemos hacer un canonical indexando o sin indexar, esas son las opciones. Si lo dejamos sin indexar debemos dejar el follow en el META ROBOTS.

4. Crear contenido nuevo(Freshness)

El contenido que es rastreado más a menudo suele recibir más tráfico. Recordad que un buen truco para ganar tráfico y subir posiciones es actualizar la fecha de los artículos e incluirle más información útil.

La autoridad del sitio determina también la frecuencia de los rastreos, pero esto tiene menor importancia si el sitio web se actualiza constantemente.

A continuación te muestro una web de unas 200.000 visitas mensuales, muy actualizada y con una autoridad relativamente alta. La página tiene 150 artículos y rankea muy bien.

pagina-de-200k-visitas-crawl-budget

comprar enlaces en Enlazator

Hagamos una regla de tres sencilla comparando esta web con mi blog:

150 entradas – 1658 páginas rastreadas
24 entradas  –  x páginas rastreadas

x = 265

Cómo puedes ver el ejemplo de 24 entradas es para SeoRocket pero realmente el Crawl Budget que tengo es de 50 y no de 265. No existe concordancia alguna y es por muchos motivos pero la autoridad y el freshness juegan un papel crucial.

Crawl Rank

Por lo tanto tener el Crawl Budget optmizado te ayudará a que puedas cambiar tus rankings más rápido al actualizar continuamente contenido y a su vez esta frescura de contenidos ayudará a aumentar el Crawl Budget. Cómo ves es todo una pescadilla que se muerde la cola.

Además parece que Google asigna un Crawl Budget de inicio a la página web por su autoridad y luego determina una puntuación denominada Crawl Rank. Si una página es visitada pocas veces tendrá una puntuación menor de Crawl Rank.

Si tus páginas son rastreadas con más frecuencia que las de la competencia conseguirás atraer más tráfico hacia ellas. Tiene toda la lógica del mundo, si Google pasa muchas veces por un contenido y va captando mejoras en él irá aupandolo en las SERPS. Si solo pasa una vez, solo recibirá una clasificación esa vez.

¡Ojo! Esto no significa que vayas a mejorar en las SERPS solo por que tu web sea rastreada más a menudo. Así lo confirmó John Mueller vía twitter:

@akinyemi_alamu No. However, getting crawled more doesn’t positively change rankings either.

— John Mueller (@JohnMu) 1 de noviembre de 2016

 

6. Adiós paginación, Hola scroll infinito

Una forma de que el contenido sea indexado de manera más fácil es que esté muy cercano a la home y ya no te cuento si es posible que todo tu contenido se cargue en la home. Y ahora dirás Miguel estás loco…

¡Para para para! Sabes de sobra que soy desarrollador web también y eso así sin más explicación sería una locura para los tiempos de carga de la página. Pero gracias a los desarrollos actuales es posible que la página vaya haciendo peticiones a medida que el usuario hace scroll en la web mostrando así más entradas.

Tal y como evolucionan los tiempos la navegación móvil se está convirtiendo en clara mayoría, en mis mejores páginas con mucho tráfico ya es más de un 60% y tengo que optimizarlas para móvil y pensar en como se ve para saber donde clicarán.

Y es por eso que se está extendiendo lo del scroll infinito, porque el uso desde móvil es bajar bajar y bajar 🙂

Y como siempre en casa de herrero cuchillo de palo, este blog no está optimizado para esto. Es responsive pero esta parte no está a la orden del día.

Consigue que todo el contenido esté muy cercano a la home. El scroll infinito puede facilitar esa tarea creando enlaces a todos los artículos desde la zona más importante de la web.

Si quieres saber más, esto es lo que recomienda Google para un infinite scroll correcto.

 

7. Eliminar el contenido inútil

Esta técnica puede ser la revolución en SEO a partir de ahora. Cada vez se crean más y más páginas, ¿crees que Google va indexar toda esa cantidad de contenidos inútiles? Yo creo que intentarán evitar indexar basura y de hecho ya lo hacen.

¿Alguna vez has usado técnicas blackhat de creación de post en muchas plataformas para enlazar a tus proyectos? Puede que hubiera alguna época donde ese pobre linkbuilding funcionó pero dejó de hacerlo cuando indexar esos posts resultaba casi imposible. Y es que Google ha empezado a limitar todo esto.

Si encuentran una página con contenido obsoleto, irrelevante o que no consigue “engagement” estás muerto. Empezará a producirse la siguiente cascada de acontecimientos:

  1. Descenso del presupuesto de rastreo(crawl budget).
  2. Menos páginas indexadas
  3. Descenso del tráfico orgánico
Consejo para desindexar: no metas la url a desindexar con disallow en el robots.txt porque entonces Google no podrá leer el Meta robots con el no index. La próxima vez que el robot pase y vea el Meta robots con NO INDEX borrará esa url del índice.

8. Enlaces

Si el robot de Google o cualquier otro encuentra continuamente errores en tus enlaces va estar gastando presupuesto de rastreo innecesariamente.

Enlaces rotos

Muy importante no tener enlaces rotos en tu página web, ya no solo porque los crawlers no podrán hacer una navegación efectiva sino porque también perjudica la experiencia del usuario. Es importante hacer una comprobación de vez en cuando con herramientas como la Search Console de Google o Screamingfrog.

Enlaces internos

Los enlaces internos sirven para pasar link juice y relevancia para palabras claves pero además permitiendo navegar a los usuarios y a los robots. Debes aprovechar cada oportunidad para enlazar tus propios contenidos con palabras claves relevantes usadas de forma natural.

Si tenemos un buen enlazamiento interno mejoraremos el rastreo de nuestra página considerablemente.

Rel=”nofollow” en enlaces internos

Una buena práctica es indicar al robot por donde no debe seguir dentro de nuestra web, por ejemplo enlaces hacía contacto, políticas de privacidad,etc…que no aportan nada y que además deberían estar en NO INDEX. Así haremos que solo visite las urls realmente importantes.

Enlaces recibidos

Los enlaces externos, además de ayudarte a posicionar también van ayudar a los crawlers a llegar a más páginas a través de otros blogs.

Enlaces hacia otras páginas y la duda del rel=”nofollow”

Una duda recurrente es, con respecto al consumo de rastreo ¿debemos poner “nofollow” los enlaces hacía páginas externas? ¿Si el bot encuentra un enlace en nuestra página consumirá más crawl budget?

La respuesta es NO. Google tendrá en cuenta ese enlace para visitarlo pero antes de nada gastará todo el Crawl Budget disponible para tu web y una vez finalizado el rastreo accederá a las nuevas urls externas encontradas.

9. Velocidad de carga

Algo fundamental es la velocidad de carga de nuestro sitio web, para los que usamos algún CMS es una lucha continúa. Si creas páginas muy simples con html no tendrás este problema. Haz el test de velocidad desde Pingdom o desde la propia herramienta de Google PageSpeed Insights.

En mi blog tengo que mejorar el tema de las imágenes en portada que no caduque tan pronto la caché, el resto es aceptable. Aunque podría mejorarlo hasta llegar al Grado A.

test-velocidad

Si tienes WordPress te recomiendo usar:

Con estos plugins mejorarás considerablemente, pero lo más importante es tener un tema lo más limpio posible.

10. Parámetros de URL

Los parámetros en las urls son la mayor causa de gasto del Crawl budget sobretodo en ecommerce. Aquí no voy entrar en como hacerlo porque se extendería hasta el infinito este post pero recuerda revisar en el Search Console estos parámetros para indicar a Google como debe manejarlos. Antes de tocar nada aquí te recomiendo que sepas exactamente como funciona esta herramienta porque puedes hacer que deje de rastrear partes importantes de tu web.

Además estos parámetros generan contenido duplicado a mansalva al ser una url distinta con un mismo contenido por lo que es importante tenerlo bien optimizado.

 

Cómo bien sabes me encanta experimentar, me gusta probar y luego hablar. No al revés 🙂 He estado puliendo algunos puntos de los que hablo en este post y desde que comencé a escribirlo hasta el día en que lo publico mi Crawl budget ha mejorado considerablemente.

Creo que los puntos más importantes que me han ayudado a mí han sido los enlaces externos recibidos y una mejora del enlazamiento interno. Aquí te dejo la imagen de mi presupuesto de rastreo actual.

 

estadisticas-de-rastro-google

 

Como se puede apreciar, empezamos con un Crawl Budget diario de 50 páginas por día y ya estoy en 74 páginas por día. Y eso que este blog tiene pocas urls, si esto lo aplicas en un blog enorme mejorarás la indexación y sobretodo tus los rankings y el tráfico que recibes desde ya.

Te espero en los comentarios ¿Se te ocurren otras maneras para mejorar nuestro presupuesto de rastreo diario?


👍 Si te estoy ayudando y quieres SEGUIR APRENDIENDO 👉 SÍGUEME en Youtube y Twitter


 

39 comentarios en “Crawl Budget : Cómo MEJORARLO en 10 pasos”

  1. Que tal Miguel,

    El artículo muy bueno, se debe hacer un repaso en todo sitio web de todos estos temas para mejorar, como tu dices, el crawl Budget.
    algo en lo que estoy en desacuerdo es en el Disallow: /*? ya que esta función bloquea el acceso a url’s que se generan desde algunos plugins tales como botones sociales, portfolios y otros. En algún proyecto de mi propiedad he tenido que eliminar este Disavow ya que en “Explorar como Google” me decía que bloqueaba la correcta visualización del contenido de la web, algunas de ellas categorizada con importancia Alta o Media.
    Supongo que depende de los plugins que tengas instalados, cada sitio web es diferente.
    Un saludo!
    Dani

    1. Hola Dani, muchas gracias por comentar.

      Depende de cada web, aquí estoy hablando de forma genérica. Luego cada uno puede usar 1 ó 2 de estas medidas.

      Por ejemplo hay webs que indexan esas búsquedas como milanuncios y cookpad y les va muy bien porque generan categorías que posicionan bien.

  2. Hola Miguel!

    Te dejo una pregunta: Google tiene un tiempo máximo o cantidad de Kb de descarga máxima mientras está en tu página? O cuánto tiempo pasa indexando en ella?

    Respecto al “contenido inútil”, tengo varias categorías creadas pero sin contenido, a la espera de generar entradas y categorizarlas en ellas. Debería poner esas categorías en no index hasta que tuvieran contenido?

    Muchas gracias!

    Un saludo.

    1. Buenas Rober,

      Gracias por comentar!

      No es por cantidad de descarga máxima sino por páginas que rastrea cada día.

      Sobre lo que me comentas de categorías que van a tener contenido por supuesto que no hay que ponerlas no index, van a ser muy útiles. De hecho los enlaces deberían ir a la categoría para pasar link juice a todos los posts.

      Algo que pondría en no index sería por ejemplo la página de contacto, la de políticas de privacidad,etc…lo que no es relevante para tu contenido.

      Otro caso distinto es el de los ecommerce donde conviene no indexar todos los productos porque no van aportar nada y pueden provocar una canibalización.

      1. Hola Miguel!

        Pero ahora mismo, las categorías están vacías. A ojos de google, ¿no podría catalogarlas como contenido pobre? Por eso te preguntaba si ponerlas no index, al menos hasta que tuvieran contenido.

        Gracias!

        Un saludo.

    1. Hola Vicen, gracias por comentar!

      Yo pongo lo mas importante que son los posts, las paginas y las categorias.

      Debes ver que es lo mas importante en tu web y poner esos.

  3. Hola. Buen artículo y gran web en general. Una cosa que no me ha funcionado es poner el sitemap como dices. En search console da un error. No se ha entendido la sintaxis. Saludos

  4. Hola Miguel,

    Muy interesante tu post sobre el crawl budget. ¿Has visto alguna mejora en los rankings desde que aplicaste estos cambios?

    Un saludo! Te sigo desde ya!

    1. Algo se nota pero en una web pequeña poco. Esto está más bien para webs con bastante contenido. Es como todo, si te acostumbras a tenerlo bien puedes soportar mayores crecimientos en tus páginas sin problemas.

  5. Hola, yo el problema que tengo que muchos de los enlaces que tengo que serían dofollow no se están indexando según AHREF.
    Hice ping con Search Console, pero aún así no se indexan. Páginas importantes como Youtbe, Google Plus, Twitter, Linkedin, donde aparece un enlace a mi página web.

    ¿que puedo hacer?, ¿hay alguna solución?.

  6. Muy bueno el post, Miguel!

    Oye, una duda con un dato que no tengo claro cómo interpretar.

    Imagina una web con: menos de 300 urls indexadas pero un rastreo normal de 407 páginas diarias.

    ¿Cómo es posible? ¿Puede ser síntoma de algún error?

    Gracias de antemano!

    1. Me imagino que cuenta todas las páginas raras estas de usuario, etc… seguro que hay muchas páginas que desconocéis que están indexadas.

  7. Las bondades de Twitter, que me permiten encontrarme con esta joya después de una año de haber sido publicada. Algunas cosas de las que hablas aquí las he aprendido a los golpes y otras por pura deducción, pero lo que nunca me había quedado tan claro como hoy es como mejorar el robots.txt, se de excelente y cuenta con mucha lógica.

    Gracias Miguel.

  8. Hola me ha encantado tu post pero tengo una duda.. Para evitar gastar crawled de los feeds me han dicho otros seos que no basta con bloquearlos por robots.txt ya que la gente se seguirán suscribiendo al feed y eso sale directamente del núcleo de wordpress por lo que el robot intentará acceder dándote multitud de errores 404 en google search console y perjudicando gravemente.. ¿Esto es cierto? Y como se procedería? Un saludo y gracias.

    1. A ver por el crawl budget hay que preocuparse cuando tienes muchisimas urls(normalmente un ecommerce). Hay muchas cosas que puedes hacer como mejorar el enlazamiento interno y no indexar paginas que no aporren nada. De esta forma ya lo mejoras una barbaridad.

  9. Hola Miguel, menudo articulado te has marcado.
    Te quería comentar dos cosas:
    1. Respecto a la velocidad de carga tal y como dices me parece algo primordial para mejorar el presupuesto de rastreo. No estaría de más especificar en el artículo con alguna imagen de Search console que según disminuyen los tiempos de carga, aumenta el crawl budget.
    2. Respecto al tema de poner noindex, nofollow a páginas como contacto, aviso legal y demás, sí es cierto que al poner nofollow mejoras el crawl budget pero por otro lado pierdes “link juice” hacia otras páginas (teniendo en cuenta que desde estas páginas también se enlaza a otras por ejemplo como el menú). No te parece?

    Si quieres pásate por mi blog y busca el artículo sobre enlaces nofollow y dofollow donde hablo un pelín sobre esto a ver qué te parece.

    Un abrazo!

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *