Crawl budget explicado sin humo
Respuesta rápida: si tu web tiene menos de 10.000 URLs útiles y Google indexa tus páginas nuevas en pocos días, probablemente no tienes un problema real de crawl budget. Antes de obsesionarte con rastreo, revisa calidad, arquitectura interna, enlazado, autoridad e indexabilidad. El crawl budget solo suele ser un problema real para sitios muy grandes, […]

Respuesta rápida: si tu web tiene menos de 10.000 URLs útiles y Google indexa tus páginas nuevas en pocos días, probablemente no tienes un problema real de crawl budget. Antes de obsesionarte con rastreo, revisa calidad, arquitectura interna, enlazado, autoridad e indexabilidad.
- El crawl budget solo suele ser un problema real para sitios muy grandes, sitios medianos con cambios diarios o webs con muchas URLs en “Descubierta: actualmente sin indexar”.
- Google publica esos umbrales como referencia orientativa: más de un millón de URLs, más de 10.000 URLs con cambios diarios o muchas URLs descubiertas pero no indexadas.
- Crawl budget tiene dos componentes independientes: capacidad de rastreo —lo que tu servidor aguanta— y demanda de rastreo —lo que Google decide rastrear—.
- Optimizar crawl budget en un sitio pequeño rara vez acelera la indexación. Normalmente pesa más mejorar calidad, valor percibido, enlazado interno y autoridad.
- El diagnóstico serio exige cruzar logs de servidor con el informe de estadísticas de rastreo de Search Console. Sin logs, son hipótesis.
El crawl budget es el conjunto de URLs que Googlebot puede y quiere rastrear de un sitio en un periodo determinado, condicionado por la capacidad del servidor para responder a sus peticiones y por la demanda de rastreo que Google atribuye al dominio en función de su popularidad, frescura y calidad percibida. No es una asignación fija ni una métrica publicada en Search Console: es un comportamiento emergente del sistema de rastreo de Google que se manifiesta en patrones, no en cifras explícitas.
La mayoría de artículos sobre crawl budget en español traduce literalmente las recomendaciones genéricas de Google (limpia sitemap, evita 4xx, mejora velocidad) sin preguntar lo único que importa: si el sitio del lector está siquiera dentro del umbral en el que Google considera que el tema es relevante. Spoiler: probablemente no lo esté. Y mientras se obsesiona con el crawl budget, está ignorando lo que sí limita su rastreo de verdad.
1. Qué es el crawl budget (y qué no es)
El crawl budget, según la propia documentación oficial de Google, es el resultado de combinar dos variables: el límite de capacidad de rastreo y la demanda de rastreo. Google define el crawl budget de un sitio como el conjunto de URLs que Googlebot puede y quiere rastrear. La palabra clave es «y»: ambas condiciones tienen que cumplirse. Si una falla, el rastreo baja.
1.1 Definición técnica de Google, sin marketing
La web es prácticamente infinita y excede la capacidad de Google para explorarla e indexarla por completo. Como resultado, hay límites en cuánto tiempo puede dedicar Googlebot al rastreo de un sitio. Ese tiempo es lo que coloquialmente se llama crawl budget. No es un parámetro configurable, no aparece como métrica directa en Search Console y no se «compra». Es el output de un sistema interno que pondera capacidad técnica y deseo de Google de visitar tu dominio.
El leak de la API de Content Warehouse de mayo de 2024 confirmó que el sistema de rastreo se llama internamente Trawler, y que opera como un componente diferenciado dentro de la arquitectura de microservicios de Google Search (junto con Alexandria para indexación y Mustang para ranking). Saberlo no cambia el comportamiento del sistema, pero ayuda a entender por qué los consejos del tipo «haz que tu contenido sea más valioso» no son palabrería: la calidad percibida del dominio entra como input en sistemas separados del rastreo, y esos sistemas son los que regulan la demanda.
1.2 Los dos componentes reales: capacidad vs demanda
La mayoría de artículos mezcla los dos componentes en una sopa de consejos. Separarlos importa porque las palancas de optimización son distintas.
| Componente | Qué es | Quién lo controla | Palanca de optimización |
|---|---|---|---|
| Capacidad de rastreo (crawl capacity limit) | Cuántas peticiones simultáneas puede absorber tu servidor sin degradarse. | Tu infraestructura. | Mejorar tiempos de respuesta, ampliar recursos, reducir errores 5xx. |
| Demanda de rastreo (crawl demand) | Cuántas URLs Google quiere rastrear de tu sitio según popularidad, frescura y calidad. | Google. | Subir calidad percibida del dominio, ganar enlaces, actualizar contenido relevante. |
La diferencia operativa es radical. Si tu problema es capacidad, el remedio es de ingeniería: optimizar la base de datos, escalar el servidor, depurar consultas lentas. Si tu problema es demanda, ningún tuning técnico va a moverlo: Google rastrea poco porque considera que no merece la pena rastrear más.
1.3 Lo que no es crawl budget (y se confunde a diario)
Tres confusiones recurrentes que conviene cerrar antes de seguir:
- No es lo mismo que indexación. Una URL puede ser rastreada y no indexada. Google avisa explícitamente de que no todo lo que se rastrea acaba indexado: cada página se evalúa, consolida y valora antes de decidir si entra al índice. Si tienes URLs en estado «Rastreada: actualmente sin indexar», el problema no es de crawl budget, es de calidad o de canibalización.
- No es un factor de ranking directo. Que Google rastree más una URL no la posiciona mejor. La frecuencia de rastreo es consecuencia del valor percibido, no causa del ranking.
- No se «ahorra» bloqueando con robots.txt. Bloquear con robots.txt evita el rastreo de esas URLs, pero el presupuesto liberado no se redistribuye automáticamente hacia las URLs importantes. La demanda no funciona así.
2. ¿Tu sitio tiene un problema de crawl budget? El test honesto
La pregunta correcta no es «cómo optimizo mi crawl budget» sino «¿tengo siquiera un problema de crawl budget?». Para la mayoría de sitios, la respuesta honesta es que no.
2.1 El umbral oficial que Google publica (y casi nadie cita bien)
Google publica en su documentación de rastreo una lista cerrada de tipos de sitio para los que su guía de crawl budget es relevante. La guía está dirigida a sitios grandes con más de un millón de páginas únicas que cambian moderadamente (una vez por semana), sitios medianos o más grandes con más de 10.000 páginas únicas y contenido que cambia muy rápido (a diario), o sitios con una gran proporción de URLs clasificadas en Search Console como «Detectada: actualmente sin indexar».
Si tu sitio no encaja en ninguna de esas tres categorías, Google mismo dice que basta con mantener el sitemap al día y revisar regularmente el informe de cobertura del índice. No es una opinión, es la guía oficial.
Y por si quedaban dudas sobre si el umbral seguía vigente, Gary Illyes confirmó en 2025 que el umbral del millón de páginas sigue siendo el mismo desde 2020, y reveló además que la velocidad de la base de datos importa más que el número de páginas: un sitio con 500.000 páginas y consultas lentas a base de datos puede tener más problemas de rastreo que un sitio con 2 millones de páginas estáticas rápidas.
2.2 Síntomas reales en Search Console y en logs
Antes de asumir que tienes un problema de crawl budget, busca evidencia. Las señales que importan no son las que se citan en los blogs de SEO de 2018 («tengo muchos 404»); son estas:
- Páginas nuevas que tardan más de una semana en ser rastreadas pese a estar en sitemap y enlazadas internamente.
- Volumen significativo de URLs en estado «Detectada: actualmente sin indexar» en el informe de cobertura.
- Crawl Stats Report mostrando que más del 50% del presupuesto se consume en URLs no canónicas, parámetros o errores.
- Logs de servidor evidenciando que Googlebot dedica más peticiones a facetas y paginaciones que a URLs principales.
- Caídas bruscas de «Solicitudes totales de rastreo» en Search Console sin cambios de infraestructura.
| Cuándo te importa el crawl budget | Cuándo no te importa |
|---|---|
| Ecommerce con +50.000 URLs y navegación facetada sin control. | Blog corporativo con 200 posts. |
| Publisher con +100.000 artículos y actualización diaria. | Web de servicios con 30 páginas. |
| Marketplace o directorio con inventario muy dinámico. | SaaS B2B con 500 URLs entre marketing y docs. |
| Sitio con miles de URLs en «Detectada sin indexar». | Sitio donde las URLs nuevas se indexan en menos de 48 horas. |
Si tu caso está en la columna derecha, optimizar crawl budget es un desvío. El cuello de botella está en otro sitio: calidad de contenido, autoridad del dominio, intención de búsqueda mal atendida, arquitectura interna pobre. Lo decimos así de directo porque «necesito optimizar mi crawl budget» se ha convertido en un comodín cómodo para evitar la conclusión incómoda: tu contenido no es lo suficientemente bueno o tu dominio no tiene la autoridad necesaria para que Google decida invertir más rastreo en él.
3. Qué controla la capacidad de rastreo
La capacidad de rastreo es el techo técnico que tu infraestructura impone al volumen de peticiones simultáneas que Googlebot puede hacer sin degradar la experiencia. Googlebot ajusta dinámicamente esta capacidad: si el servidor responde rápido y sin errores, sube el ritmo; si responde lento o devuelve 5xx, baja.
Los factores que más impactan, por orden de magnitud:
- Tiempo de respuesta del servidor (TTFB). El factor más decisivo. Por debajo de 200 ms, Google amplía capacidad. Por encima de 800 ms de forma sostenida, la reduce. Esto incluye tiempo de respuesta del backend, latencia de base de datos y procesamiento de PHP/Node/lo que sea.
- Eficiencia de la base de datos. El matiz que añadió Illyes en 2025. Una base de datos lenta o con consultas mal indexadas penaliza más que un sitio grande. Tener un millón de URLs estáticas servidas desde CDN es más amable para Googlebot que tener 100.000 URLs dinámicas que recalculan datos cada petición.
- Tasa de errores 5xx. Errores de servidor sostenidos hacen que Googlebot frene el rastreo durante horas o días. Un pico de 5xx en una migración mal gestionada puede tirar el rastreo durante una semana.
- Errores de DNS y de conexión. Mucho menos comunes, pero cuando aparecen, devastadores. Googlebot interpreta fallos de DNS como un servidor poco fiable.
- Límite manual en Search Console. Existe, sigue ahí, pero salvo casos muy específicos no se toca. Subirlo no fuerza a Google a usar más capacidad; bajarlo sí lo restringe.
Nota importante: optimizar capacidad solo eleva el techo. Si tu demanda de rastreo es baja porque tu sitio tiene poca autoridad o poco contenido relevante, ampliar capacidad no hace nada. Es como duplicar el tamaño de la tubería cuando el grifo apenas gotea.
4. Qué controla la demanda de rastreo
La demanda es la parte que Google decide. Es donde se libran las batallas de SEO real, no las de tunear robots.txt.
Según la documentación oficial, Google determina la cantidad de recursos de rastreo que asigna a cada sitio en función de la popularidad, el valor para el usuario, la unicidad y la capacidad de servicio. Las únicas formas de aumentar el crawl budget son aumentar la capacidad de servicio y, más importante, aumentar el valor del contenido del sitio para los buscadores.
Léelo dos veces. Lo dice Google. La principal palanca para que Google te rastree más es que tu contenido tenga más valor. Todas las demás optimizaciones de crawl budget son secundarias.
Los factores que controlan la demanda son cuatro:
- Popularidad. URLs con más enlaces internos y externos se rastrean más. PageRank sigue siendo un input directo del scheduler de rastreo. El leak de 2024 confirmó que el PageRank de la home se usa como referencia para URLs nuevas que aún no tienen su propio score.
- Frescura y staleness. Los sistemas de Google quieren recrawlear documentos con la frecuencia suficiente para detectar cambios. Eventos a nivel de sitio, como migraciones, pueden disparar la demanda de rastreo para reindexar contenido bajo las nuevas URLs. Una página que cambia con frecuencia (y los cambios son sustanciales, no solo el footer) se rastrea más que una página estancada.
- Calidad percibida del dominio. El leak de 2024 confirmó la existencia de una señal llamada
siteAuthoritydentro del sistema de señales de calidad comprimidas, aplicada en el sistema de ranking Q*. Aunque Google declaró durante años que no usaba «domain authority» como métrica, el leak demostró lo contrario. Esa señal alimenta indirectamente la demanda: dominios con mayor autoridad percibida reciben más rastreo, porque Google espera que su contenido nuevo aporte más al índice. - Unicidad. Sitios con alto porcentaje de contenido duplicado interno o sin valor diferencial ven cómo Google les baja la demanda. No tiene sentido recrawlear lo mismo en URLs distintas.
La consecuencia operativa es incómoda para muchos: el principal problema de crawl budget de la mayoría de sitios grandes no se resuelve con SEO técnico, se resuelve produciendo contenido de mayor calidad y consolidando la autoridad del dominio. El SEO técnico es condición necesaria, no suficiente.
5. Cómo diagnosticar de verdad
Diagnosticar crawl budget mirando solo Search Console es como diagnosticar una infección mirando solo la temperatura. Te da una señal, pero no el origen. El diagnóstico serio cruza tres fuentes.
- Search Console: Crawl Stats Report. Settings → Crawl Stats. Revisa solicitudes totales (tendencia), tiempo medio de respuesta (idealmente <500 ms y estable), distribución por tipo de archivo (HTML debería dominar), distribución por código de respuesta (>90% en 200, <5% en 3xx, <2% en 4xx, <0,5% en 5xx) y propósito del rastreo (descubrimiento vs actualización).
- Logs de servidor. Los logs son la única fuente que dice qué URLs concretas está rastreando Googlebot y con qué frecuencia. Filtra por user-agent verificando contra los rangos de IP oficiales de Google (porque hay mucho fake Googlebot). Cruza con tu inventario de URLs canónicas: si más del 30% del rastreo va a URLs no canónicas, parámetros o paginaciones profundas, hay desperdicio real.
- Crawl propio con Screaming Frog, Sitebulb o similar. Para tener el inventario de URLs descubribles y compararlo con el inventario de URLs efectivamente rastreadas según logs. La brecha entre «rastreable» y «rastreado» es donde está el diagnóstico.
Sin las tres fuentes, lo demás son hipótesis. Y para sitios por debajo del umbral, todo este aparato de diagnóstico es overkill. Las agencias que cobran por «auditoría de crawl budget» en sitios de 800 URLs venden humo.
6. Optimizaciones que mueven la aguja (y las que no)
Asumiendo que tu sitio está dentro del umbral y que el diagnóstico ha identificado desperdicio real, estas son las palancas con impacto verificable, ordenadas de mayor a menor.
| Qué hacer | Qué no hacer |
|---|---|
| Consolidar URLs duplicadas con canonical correctamente implementadas. | Bloquear con robots.txt URLs que ya están indexadas (las dejas en el índice, ciegas). |
| Configurar la navegación facetada para limitar combinaciones rastreables (canonical + bloqueo de patrones de parámetros que generan duplicidad masiva). | Generar sitemap «perfecto» con prioridades y frecuencias inventadas. Google ignora esos atributos. |
| Devolver 410 (en lugar de 404) en URLs eliminadas permanentemente para acelerar su desindexación. | Esperar que noindex «ahorre» crawl budget. Las URLs noindex se siguen rastreando. |
| Reducir cadenas de redirecciones a un solo salto. | Implementar prerender o snapshot statics asumiendo que Googlebot no renderiza JavaScript. Lo hace, aunque con retraso. |
| Optimizar tiempo de respuesta del servidor y consultas de base de datos. | Subir manualmente el límite de crawl rate en GSC esperando que Google rastree más. El límite es un techo, no un objetivo. |
| Mantener sitemaps segmentados por tipo de contenido (productos, categorías, artículos) y solo con URLs canónicas indexables. | Inflar el sitemap con URLs noindex, redirigidas o canonicalizadas a otras. |
| Mejorar la calidad y unicidad del contenido en URLs importantes. | Forzar «freshness» con cambios cosméticos (fecha actualizada, footer modificado). Google detecta el truco. |
| Reforzar enlazado interno hacia URLs estratégicas con anchors descriptivos. | Mantener cientos de páginas etiqueta o archivo de fecha vacías o con dos resultados. |
Un detalle que la actualización de Google Search Central de finales de 2024 dejó claro: si tu sitio usa HTML separado para versiones móvil y escritorio, proporciona el mismo conjunto de enlaces en la versión móvil que en la escritorio. Si no es posible, asegúrate de incluirlos en un fichero sitemap. Una paridad pobre entre móvil y escritorio puede frenar el descubrimiento en sitios grandes con configuración m-dot o similar.
7. Errores comunes al gestionar crawl budget
- Bloquear con robots.txt URLs ya indexadas. El bloqueo impide el rastreo, no la desindexación. Resultado: las URLs siguen en el índice, sin metadata actualizada, dañando la calidad percibida del dominio. Para eliminar del índice se usa noindex (que requiere rastreo previo) o 410.
- Asumir que el sitemap dicta el rastreo. El sitemap es una pista, no una orden. Google usa el sitemap para descubrir URLs, pero la decisión de rastrearlas la toma su propio scheduler en función de capacidad y demanda. Tener sitemap «perfecto» no garantiza nada si la demanda es baja.
- Confundir crawl budget con presupuesto de indexación. Son dos cosas. Google rastrea más de lo que indexa. Si tu problema es «Rastreada sin indexar» o «Detectada sin indexar», lo que falla es la valoración de calidad, no el rastreo.
- Obsesionarse con los 404 menores. 404s aislados no consumen crawl budget de forma relevante. Google trata los 404 como respuestas válidas y, salvo que sean masivos o estén en URLs estratégicas, no degradan el rastreo.
- Aplicar «noindex, follow» como solución mágica. A medio plazo, Google trata el follow en páginas noindex casi como nofollow, porque deja de visitarlas. Las páginas noindex no son una vía limpia para distribuir autoridad.
- Manipular la fecha de modificación en sitemaps. Marcar artificialmente lastmod no engaña a Google: si los hashes de contenido no cambian, el efecto en demanda es nulo y mantenida en el tiempo erosiona la confianza en el sitemap.
- Hacer auditoría de crawl budget en un sitio de 1.500 URLs. Lo decimos sin diplomacia: es vender una optimización que no aplica. Si tu sitio tiene menos de 10.000 URLs útiles y las URLs nuevas se indexan rápido, este no es tu problema.
8. Preguntas frecuentes
¿Cuántas URLs necesito tener para que el crawl budget sea un problema real?
Google publica el umbral: sitios con más de un millón de URLs únicas con actualización semanal, o sitios con más de 10.000 URLs con actualización diaria. Por debajo, basta mantener sitemap al día y revisar cobertura.
¿El crawl budget afecta directamente al ranking?
No. Que Google rastree más una URL no la posiciona mejor. La frecuencia de rastreo es consecuencia de la calidad y popularidad percibidas, no causa del ranking. Optimizar rastreo no mejora posiciones por sí solo.
¿Bloquear URLs con robots.txt libera crawl budget para otras?
No de forma directa. Bloquear impide rastrear esas URLs, pero la demanda liberada no se redistribuye automáticamente hacia las URLs importantes. Y si las URLs bloqueadas ya estaban indexadas, las dejas en el índice sin posibilidad de actualizarlas o desindexarlas con noindex.
¿Sirve subir el crawl rate en Search Console?
Solo para bajarlo si tu servidor está saturado. Subirlo no fuerza a Google a usar más capacidad: el ajuste es un techo, no un objetivo. Google decide cuánto rastrea según su propia evaluación de capacidad y demanda.
¿Por qué Google no rastrea mis páginas nuevas?
Las causas habituales no son de crawl budget sino de descubribilidad o calidad: URLs sin enlaces internos sólidos, sitemap desactualizado, dominio con poca autoridad o contenido percibido como poco valioso. Antes de asumir crawl budget, revisa estos factores.
¿Es mejor noindex o robots.txt para optimizar el rastreo?
Depende del objetivo. Para eliminar del índice y mantener accesible la URL: noindex (Google necesita rastrearla para verlo). Para evitar el rastreo de patrones masivos de URLs sin valor (facetas, búsquedas internas): robots.txt, pero solo si esas URLs no están ya indexadas.
¿Cómo sé si mi servidor está limitando el rastreo?
En Search Console → Crawl Stats: revisa «Solicitudes totales» y «Tiempo medio de respuesta». Si el tiempo supera de forma sostenida los 500-800 ms, o si ves picos de 5xx, Googlebot está bajando el ritmo. Cruzar con monitorización del servidor confirma el diagnóstico.
¿El leak de Google de 2024 reveló algo nuevo sobre crawl budget?
No reveló mecánicas internas del rastreo, pero confirmó la existencia del sistema interno «Trawler» y de señales como siteAuthority en el sistema de calidad Q*. Eso refuerza lo que Google ya decía: la calidad percibida del dominio condiciona la demanda de rastreo.
Fuentes
- Google Search Central, «Large Site Owner’s Guide to Managing Your Crawl Budget» (developers.google.com). Consultada 2026-05.
- Google Crawling Infrastructure Documentation, «Crawl Budget Management» (developers.google.com). Consultada 2026-05.
- Search Engine Journal, «Google: Database Speed Beats Page Count For Crawl Budget» (declaraciones de Gary Illyes, 2025) (searchenginejournal.com). Consultada 2026-05.
- Search Engine Journal, «Google Updates Crawl Budget Best Practices» (paridad de enlaces móvil/escritorio, noviembre 2024) (searchenginejournal.com). Consultada 2026-05.
- iPullRank, «Secrets from the Google Algorithm Leak» — análisis de Mike King sobre la confirmación de siteAuthority y la arquitectura Trawler/Alexandria/Mustang (ipullrank.com). Consultada 2026-05.
- Search Engine Land, «Huge Google Search document leak reveals inner workings of ranking algorithm» (searchengineland.com). Consultada 2026-05.
¿Tu sitio supera las 50.000 URLs y sospechas que tienes un problema real de rastreo?
Hacemos auditorías de rastreo e indexación con análisis de logs cruzados con Search Console. Si tu sitio no llega al umbral, te lo decimos en la primera llamada y no te facturamos un trabajo que no necesitas.
FOUNDER & SEO LEAD
Founder de Autoridad Digital. Especialista en SEO, Generative Engine Optimization, Topical Authority y Authority Stacking, PR Digital. Todos los artículos del blog están firmados por él.