Respuesta rápida: si tu web tiene menos de 10.000 URLs útiles y Google indexa tus páginas nuevas en pocos días, probablemente no tienes un problema real de crawl budget. Antes de obsesionarte con rastreo, revisa calidad, arquitectura interna, enlazado, autoridad e indexabilidad. El crawl budget solo suele ser un problema real para sitios muy grandes, […]

Respuesta rápida: si tu web tiene menos de 10.000 URLs útiles y Google indexa tus páginas nuevas en pocos días, probablemente no tienes un problema real de crawl budget. Antes de obsesionarte con rastreo, revisa calidad, arquitectura interna, enlazado, autoridad e indexabilidad.
El crawl budget es el conjunto de URLs que Googlebot puede y quiere rastrear de un sitio en un periodo determinado, condicionado por la capacidad del servidor para responder a sus peticiones y por la demanda de rastreo que Google atribuye al dominio en función de su popularidad, frescura y calidad percibida. No es una asignación fija ni una métrica publicada en Search Console: es un comportamiento emergente del sistema de rastreo de Google que se manifiesta en patrones, no en cifras explícitas.
La mayoría de artículos sobre crawl budget en español traduce literalmente las recomendaciones genéricas de Google (limpia sitemap, evita 4xx, mejora velocidad) sin preguntar lo único que importa: si el sitio del lector está siquiera dentro del umbral en el que Google considera que el tema es relevante. Spoiler: probablemente no lo esté. Y mientras se obsesiona con el crawl budget, está ignorando lo que sí limita su rastreo de verdad.
El crawl budget, según la propia documentación oficial de Google, es el resultado de combinar dos variables: el límite de capacidad de rastreo y la demanda de rastreo. Google define el crawl budget de un sitio como el conjunto de URLs que Googlebot puede y quiere rastrear. La palabra clave es «y»: ambas condiciones tienen que cumplirse. Si una falla, el rastreo baja.
La web es prácticamente infinita y excede la capacidad de Google para explorarla e indexarla por completo. Como resultado, hay límites en cuánto tiempo puede dedicar Googlebot al rastreo de un sitio. Ese tiempo es lo que coloquialmente se llama crawl budget. No es un parámetro configurable, no aparece como métrica directa en Search Console y no se «compra». Es el output de un sistema interno que pondera capacidad técnica y deseo de Google de visitar tu dominio.
El leak de la API de Content Warehouse de mayo de 2024 confirmó que el sistema de rastreo se llama internamente Trawler, y que opera como un componente diferenciado dentro de la arquitectura de microservicios de Google Search (junto con Alexandria para indexación y Mustang para ranking). Saberlo no cambia el comportamiento del sistema, pero ayuda a entender por qué los consejos del tipo «haz que tu contenido sea más valioso» no son palabrería: la calidad percibida del dominio entra como input en sistemas separados del rastreo, y esos sistemas son los que regulan la demanda.
La mayoría de artículos mezcla los dos componentes en una sopa de consejos. Separarlos importa porque las palancas de optimización son distintas.
| Componente | Qué es | Quién lo controla | Palanca de optimización |
|---|---|---|---|
| Capacidad de rastreo (crawl capacity limit) | Cuántas peticiones simultáneas puede absorber tu servidor sin degradarse. | Tu infraestructura. | Mejorar tiempos de respuesta, ampliar recursos, reducir errores 5xx. |
| Demanda de rastreo (crawl demand) | Cuántas URLs Google quiere rastrear de tu sitio según popularidad, frescura y calidad. | Google. | Subir calidad percibida del dominio, ganar enlaces, actualizar contenido relevante. |
La diferencia operativa es radical. Si tu problema es capacidad, el remedio es de ingeniería: optimizar la base de datos, escalar el servidor, depurar consultas lentas. Si tu problema es demanda, ningún tuning técnico va a moverlo: Google rastrea poco porque considera que no merece la pena rastrear más.
Tres confusiones recurrentes que conviene cerrar antes de seguir:
La pregunta correcta no es «cómo optimizo mi crawl budget» sino «¿tengo siquiera un problema de crawl budget?». Para la mayoría de sitios, la respuesta honesta es que no.
Google publica en su documentación de rastreo una lista cerrada de tipos de sitio para los que su guía de crawl budget es relevante. La guía está dirigida a sitios grandes con más de un millón de páginas únicas que cambian moderadamente (una vez por semana), sitios medianos o más grandes con más de 10.000 páginas únicas y contenido que cambia muy rápido (a diario), o sitios con una gran proporción de URLs clasificadas en Search Console como «Detectada: actualmente sin indexar».
Si tu sitio no encaja en ninguna de esas tres categorías, Google mismo dice que basta con mantener el sitemap al día y revisar regularmente el informe de cobertura del índice. No es una opinión, es la guía oficial.
Y por si quedaban dudas sobre si el umbral seguía vigente, Gary Illyes confirmó en 2025 que el umbral del millón de páginas sigue siendo el mismo desde 2020, y reveló además que la velocidad de la base de datos importa más que el número de páginas: un sitio con 500.000 páginas y consultas lentas a base de datos puede tener más problemas de rastreo que un sitio con 2 millones de páginas estáticas rápidas.
Antes de asumir que tienes un problema de crawl budget, busca evidencia. Las señales que importan no son las que se citan en los blogs de SEO de 2018 («tengo muchos 404»); son estas:
| Cuándo te importa el crawl budget | Cuándo no te importa |
|---|---|
| Ecommerce con +50.000 URLs y navegación facetada sin control. | Blog corporativo con 200 posts. |
| Publisher con +100.000 artículos y actualización diaria. | Web de servicios con 30 páginas. |
| Marketplace o directorio con inventario muy dinámico. | SaaS B2B con 500 URLs entre marketing y docs. |
| Sitio con miles de URLs en «Detectada sin indexar». | Sitio donde las URLs nuevas se indexan en menos de 48 horas. |
Si tu caso está en la columna derecha, optimizar crawl budget es un desvío. El cuello de botella está en otro sitio: calidad de contenido, autoridad del dominio, intención de búsqueda mal atendida, arquitectura interna pobre. Lo decimos así de directo porque «necesito optimizar mi crawl budget» se ha convertido en un comodín cómodo para evitar la conclusión incómoda: tu contenido no es lo suficientemente bueno o tu dominio no tiene la autoridad necesaria para que Google decida invertir más rastreo en él.
La capacidad de rastreo es el techo técnico que tu infraestructura impone al volumen de peticiones simultáneas que Googlebot puede hacer sin degradar la experiencia. Googlebot ajusta dinámicamente esta capacidad: si el servidor responde rápido y sin errores, sube el ritmo; si responde lento o devuelve 5xx, baja.
Los factores que más impactan, por orden de magnitud:
Nota importante: optimizar capacidad solo eleva el techo. Si tu demanda de rastreo es baja porque tu sitio tiene poca autoridad o poco contenido relevante, ampliar capacidad no hace nada. Es como duplicar el tamaño de la tubería cuando el grifo apenas gotea.
La demanda es la parte que Google decide. Es donde se libran las batallas de SEO real, no las de tunear robots.txt.
Según la documentación oficial, Google determina la cantidad de recursos de rastreo que asigna a cada sitio en función de la popularidad, el valor para el usuario, la unicidad y la capacidad de servicio. Las únicas formas de aumentar el crawl budget son aumentar la capacidad de servicio y, más importante, aumentar el valor del contenido del sitio para los buscadores.
Léelo dos veces. Lo dice Google. La principal palanca para que Google te rastree más es que tu contenido tenga más valor. Todas las demás optimizaciones de crawl budget son secundarias.
Los factores que controlan la demanda son cuatro:
siteAuthority dentro del sistema de señales de calidad comprimidas, aplicada en el sistema de ranking Q*. Aunque Google declaró durante años que no usaba «domain authority» como métrica, el leak demostró lo contrario. Esa señal alimenta indirectamente la demanda: dominios con mayor autoridad percibida reciben más rastreo, porque Google espera que su contenido nuevo aporte más al índice.La consecuencia operativa es incómoda para muchos: el principal problema de crawl budget de la mayoría de sitios grandes no se resuelve con SEO técnico, se resuelve produciendo contenido de mayor calidad y consolidando la autoridad del dominio. El SEO técnico es condición necesaria, no suficiente.
Diagnosticar crawl budget mirando solo Search Console es como diagnosticar una infección mirando solo la temperatura. Te da una señal, pero no el origen. El diagnóstico serio cruza tres fuentes.
Sin las tres fuentes, lo demás son hipótesis. Y para sitios por debajo del umbral, todo este aparato de diagnóstico es overkill. Las agencias que cobran por «auditoría de crawl budget» en sitios de 800 URLs venden humo.
Asumiendo que tu sitio está dentro del umbral y que el diagnóstico ha identificado desperdicio real, estas son las palancas con impacto verificable, ordenadas de mayor a menor.
| Qué hacer | Qué no hacer |
|---|---|
| Consolidar URLs duplicadas con canonical correctamente implementadas. | Bloquear con robots.txt URLs que ya están indexadas (las dejas en el índice, ciegas). |
| Configurar la navegación facetada para limitar combinaciones rastreables (canonical + bloqueo de patrones de parámetros que generan duplicidad masiva). | Generar sitemap «perfecto» con prioridades y frecuencias inventadas. Google ignora esos atributos. |
| Devolver 410 (en lugar de 404) en URLs eliminadas permanentemente para acelerar su desindexación. | Esperar que noindex «ahorre» crawl budget. Las URLs noindex se siguen rastreando. |
| Reducir cadenas de redirecciones a un solo salto. | Implementar prerender o snapshot statics asumiendo que Googlebot no renderiza JavaScript. Lo hace, aunque con retraso. |
| Optimizar tiempo de respuesta del servidor y consultas de base de datos. | Subir manualmente el límite de crawl rate en GSC esperando que Google rastree más. El límite es un techo, no un objetivo. |
| Mantener sitemaps segmentados por tipo de contenido (productos, categorías, artículos) y solo con URLs canónicas indexables. | Inflar el sitemap con URLs noindex, redirigidas o canonicalizadas a otras. |
| Mejorar la calidad y unicidad del contenido en URLs importantes. | Forzar «freshness» con cambios cosméticos (fecha actualizada, footer modificado). Google detecta el truco. |
| Reforzar enlazado interno hacia URLs estratégicas con anchors descriptivos. | Mantener cientos de páginas etiqueta o archivo de fecha vacías o con dos resultados. |
Un detalle que la actualización de Google Search Central de finales de 2024 dejó claro: si tu sitio usa HTML separado para versiones móvil y escritorio, proporciona el mismo conjunto de enlaces en la versión móvil que en la escritorio. Si no es posible, asegúrate de incluirlos en un fichero sitemap. Una paridad pobre entre móvil y escritorio puede frenar el descubrimiento en sitios grandes con configuración m-dot o similar.
Google publica el umbral: sitios con más de un millón de URLs únicas con actualización semanal, o sitios con más de 10.000 URLs con actualización diaria. Por debajo, basta mantener sitemap al día y revisar cobertura.
No. Que Google rastree más una URL no la posiciona mejor. La frecuencia de rastreo es consecuencia de la calidad y popularidad percibidas, no causa del ranking. Optimizar rastreo no mejora posiciones por sí solo.
No de forma directa. Bloquear impide rastrear esas URLs, pero la demanda liberada no se redistribuye automáticamente hacia las URLs importantes. Y si las URLs bloqueadas ya estaban indexadas, las dejas en el índice sin posibilidad de actualizarlas o desindexarlas con noindex.
Solo para bajarlo si tu servidor está saturado. Subirlo no fuerza a Google a usar más capacidad: el ajuste es un techo, no un objetivo. Google decide cuánto rastrea según su propia evaluación de capacidad y demanda.
Las causas habituales no son de crawl budget sino de descubribilidad o calidad: URLs sin enlaces internos sólidos, sitemap desactualizado, dominio con poca autoridad o contenido percibido como poco valioso. Antes de asumir crawl budget, revisa estos factores.
Depende del objetivo. Para eliminar del índice y mantener accesible la URL: noindex (Google necesita rastrearla para verlo). Para evitar el rastreo de patrones masivos de URLs sin valor (facetas, búsquedas internas): robots.txt, pero solo si esas URLs no están ya indexadas.
En Search Console → Crawl Stats: revisa «Solicitudes totales» y «Tiempo medio de respuesta». Si el tiempo supera de forma sostenida los 500-800 ms, o si ves picos de 5xx, Googlebot está bajando el ritmo. Cruzar con monitorización del servidor confirma el diagnóstico.
No reveló mecánicas internas del rastreo, pero confirmó la existencia del sistema interno «Trawler» y de señales como siteAuthority en el sistema de calidad Q*. Eso refuerza lo que Google ya decía: la calidad percibida del dominio condiciona la demanda de rastreo.
Hacemos auditorías de rastreo e indexación con análisis de logs cruzados con Search Console. Si tu sitio no llega al umbral, te lo decimos en la primera llamada y no te facturamos un trabajo que no necesitas.
FOUNDER & SEO LEAD
Founder de Autoridad Digital. Especialista en SEO, Generative Engine Optimization, Topical Authority y Authority Stacking, PR Digital. Todos los artículos del blog están firmados por él.
Topical authority en español: por qué la playbook americana no funciona, qué confirmó el leak de Google 2024 sobre siteFocusScore, y el modelo que sí construye autoridad temática real en mercado hispano.
22 de mayo de 2026Por qué las playbooks SEO de SaaS B2B americanas (Ahrefs, HubSpot) no funcionan en España: volumen, intención de búsqueda, canales y qué estrategia sí genera leads cualificados.
23 de abril de 2026Durante más de una década, Google negó usar datos de clics para posicionar resultados. El juicio antitrust de 2023 y el leak de 2024 confirmaron que mentían. Análisis técnico de NavBoost y tres posturas contrarian para SEOs.
Solicita una auditoría gratuita y descubriremos juntos cómo dominar tu nicho.
Solicitar Auditoría Gratuita