La mayoría de problemas de indexación persistentes no son técnicos, son de calidad. Qué documentó el leak de 2024 y cómo diagnosticar el origen real.

Resumen ejecutivo
La indexación es el proceso por el que Google evalúa una URL rastreada y decide si la incluye en su base de datos de búsqueda, en qué nivel de prioridad la coloca y bajo qué señales de calidad la asocia. No es automática, no es un derecho del editor y no se garantiza con sitemap. Es una decisión activa de Google que combina señales técnicas, contenido y autoridad percibida del dominio.
La mayoría de artículos en español sobre por qué Google no indexa una URL acaba en la misma checklist de doce puntos técnicos: revisar robots.txt, comprobar noindex, validar canonical, verificar sitemap. La checklist resuelve algunos casos, sobre todo los más evidentes. El resto son problemas de calidad percibida que ninguna meta etiqueta arregla, y que el leak de la API de Content Warehouse de mayo de 2024 dejó por fin documentados con nombre y apellido.
Rastreo e indexación son dos fases consecutivas pero independientes del pipeline de Google. Confundirlas lleva a aplicar la solución equivocada al problema equivocado.
El rastreo es la fase en la que Googlebot visita una URL y descarga su contenido. La indexación es la fase posterior, en la que el sistema de Google (internamente llamado Alexandria, según la documentación interna filtrada en 2024) evalúa el contenido descargado, lo procesa, lo desduplica contra otras URLs similares y decide si entra al índice. Son dos procesos distintos ejecutados por sistemas distintos.
La consecuencia operativa es esta: una URL puede ser rastreada sin ser indexada, y una URL no rastreada normalmente no será indexada. Google lo dice de forma explícita en su propia documentación: no todo lo que se rastrea acaba en el índice, porque cada página se evalúa, consolida y valora antes de decidir su inclusión. Si tu problema es que Google rastrea tu URL pero no la indexa, optimizar rastreo no va a resolver nada. El cuello de botella está después.
| Fase | Qué hace Google | Sistema interno (según leak 2024) | Resultado posible |
|---|---|---|---|
| Descubrimiento | Encuentra la URL vía enlaces, sitemap o Search Console. | Trawler (scheduler) | URL conocida pero no rastreada todavía. |
| Rastreo | Googlebot visita la URL y descarga el contenido. | Trawler (crawler) | URL rastreada pero pendiente de evaluación. |
| Indexación | Evalúa contenido, desduplica, asigna señales y decide inclusión. | Alexandria | URL indexada, indexada en tier bajo, o descartada. |
| Ranking | Decide qué URLs indexadas mostrar para cada consulta. | Mustang + NavBoost | URL rankea, no rankea, o aparece muy abajo. |
Search Console te dice mucho más de lo que la mayoría de SEOs lee. Los dos estados que generan más dudas en este tema son «Detectada: actualmente sin indexar» y «Rastreada: actualmente sin indexar». Suenan parecidos pero significan cosas distintas.
Significa que Google conoce la existencia de la URL (la ha encontrado vía sitemap o enlaces) pero todavía no la ha rastreado. La explicación oficial de Google es que el bot programó la visita y la pospuso, normalmente porque rastrearla en ese momento podía sobrecargar el sitio, y reprogramó el rastreo.
Esa es la lectura por defecto en URLs aisladas. Cuando este estado aparece en masa, en URLs importantes o en patrones consistentes, ya no conviene leerlo solo como una demora técnica: suele apuntar a baja prioridad de rastreo, arquitectura interna débil, ruido de URLs autogeneradas sin valor, o señales agregadas de calidad insuficientes que llevan al scheduler a posponer indefinidamente. Las causas habituales en ese escenario:
En sitios pequeños es raro que «Detectada sin indexar» sea un problema sistémico. En sitios grandes con muchas URLs autogeneradas (facetas, paginaciones profundas, archivos vacíos), es habitual y normalmente correcto: Google está siendo eficiente.
Aquí la conversación cambia. Google ha rastreado la URL, ha descargado el contenido y, después de evaluarlo, ha decidido no incluirlo en el índice. Es un juicio activo, no una omisión pasiva.
Las razones operativas más comunes son:
«Rastreada sin indexar» es la señal más incómoda porque elimina las excusas técnicas. Google vio el contenido, evaluó el contenido y no lo quiso.
| Estado | Qué significa | Causa probable | Acción correcta |
|---|---|---|---|
| Detectada: actualmente sin indexar | Google conoce la URL pero no la ha rastreado. | Reprogramación por capacidad del servidor en URLs aisladas. Baja prioridad, arquitectura débil o calidad agregada insuficiente cuando ocurre en masa. | Si es aislado, esperar. Si es sistémico, subir calidad y autoridad del dominio, reforzar enlazado interno y reducir el ruido de URLs autogeneradas. |
| Rastreada: actualmente sin indexar | Google rastreó la URL y decidió no indexarla. | Calidad insuficiente, duplicidad blanda, canibalización o thin content. | Mejorar sustancialmente el contenido, consolidar URLs duplicadas, o eliminar la URL si no aporta valor. |
Pedir indexación manual desde la herramienta de inspección de URLs en Search Console no resuelve ni uno ni otro. Acelera el rastreo en el primer caso (si Google ya iba a hacerlo) y obliga a una segunda evaluación en el segundo (que normalmente devuelve el mismo veredicto). No es una varita mágica, es un ping con cuota limitada.
Nota importante sobre el leak. Cuando este artículo se refiere al leak de la API de Content Warehouse de mayo de 2024, no estamos afirmando que Google haya confirmado públicamente el peso ni la mecánica exacta de cada atributo. La documentación filtrada muestra la existencia de sistemas internos y señales, pero no su ponderación final. Aquí se usa como evidencia técnica complementaria, cruzada con documentación oficial de Search Console, declaraciones públicas de Google y experiencia de auditoría.
Hasta mayo de 2024, la idea pública del índice de Google era binaria: una URL estaba indexada o no lo estaba. El leak de la API de Content Warehouse desmontó esa simplificación. Lo desarrolló Mike King en su análisis publicado en iPullRank, que es la lectura técnica de referencia.
La documentación filtrada identificó tiers diferenciados en la arquitectura del índice, con nombres internos que dan una pista bastante directa de la jerarquía: Base, Zeppelins y Landfills. La interpretación de qué representa cada uno proviene del análisis de King basado en pistas contextuales del propio leak; Google no ha validado públicamente esa lectura, pero es la más coherente con la evidencia disponible.
La consecuencia es relevante: tener una URL «indexada» según Search Console no significa que esa URL pueda competir por nada. Si está en Landfills, está enterrada. Y Search Console no te dice en qué tier está cada URL. Lo deduces por su comportamiento: si una URL está indexada pero no recibe impresiones para queries razonables, probablemente esté en el tier bajo.
El leak documentó múltiples atributos del modelo PerDocData. La existencia de estos atributos está en la documentación filtrada; su peso exacto y su mecánica completa de uso no. Los más relevantes para este artículo son tres:
siteAuthority. Una señal de autoridad agregada del dominio, descrita en la documentación como integrada en el sistema de calidad Q*. Google había sostenido durante años en sus comunicaciones públicas que no usaba una métrica de «domain authority» interna; el leak documenta una señal con ese nombre. Cómo se calcula y con qué peso entra en cada sistema aguas abajo no es público.contentEffort. Atributo descrito en la documentación filtrada como una estimación a nivel de página del esfuerzo invertido en su producción. Compatible con la hipótesis de que penaliza contenido generado de forma masiva con poco aporte humano, aunque su uso específico no está confirmado oficialmente.OriginalContentScore. Atributo descrito como evaluación de la originalidad del contenido respecto a lo que ya existe en el índice. Refuerza la lectura de que la reformulación de información ya disponible sin aporte diferencial tiene un techo.Hay una cuarta señal que merece mención específica: hostAge, documentado en el leak en un contexto compatible con un mecanismo de tipo sandbox para dominios nuevos. Durante un periodo inicial, Google parece ser conservador asignando tiers de índice a URLs de dominios recientes. No es un castigo en sentido estricto; es coherente con una espera prudencial mientras se acumulan señales suficientes para juzgar la calidad.
El conjunto de estas señales refuerza algo que muchos SEOs experimentados sabían por intuición y ahora pueden nombrar: la indexación funciona como un juicio de calidad, ejecutado tanto a nivel de URL como a nivel de dominio agregado. Una URL excelente en un dominio con siteAuthority pobre lo tiene más difícil que una URL mediocre en un dominio fuerte.
Las causas técnicas representan, en nuestra experiencia, una minoría de los problemas de indexación persistentes en sitios reales. No son la mayoría, pero conviene descartarlas primero porque son baratas de auditar y resolver. Estas son las que sí mueven la aguja, en orden de frecuencia:
Esta lista es exhaustiva para el bloque técnico. Si después de auditarla no has encontrado el problema, el problema no es técnico.
Aquí empieza la parte incómoda. Cuando una URL técnicamente válida no se indexa, o se indexa en el tier bajo, la causa más probable es que Google ha decidido que no merece más espacio del que ya ocupa. Las razones suelen ser estas:
La conversación honesta con el cliente es esta: si tus URLs no se indexan, probablemente tu contenido no aporta lo suficiente o tu dominio no tiene la autoridad para que Google le dé el beneficio de la duda. Auditar canonicals durante tres semanas cuando el problema real es que el dominio publica posts de 800 palabras genéricos es perder tiempo y dinero.
El diagnóstico serio sigue un orden de descarte, no una checklist desordenada. La lógica es ir de lo barato y rápido a lo caro y lento, y de lo binario a lo subjetivo.
Este orden importa. Saltarse el paso 1 y atacar directamente «voy a mejorar la calidad del contenido» es honesto pero ineficiente si resulta que el problema era un noindex heredado. Saltarse el paso 4 y atacar directamente «voy a construir backlinks» es caro y lento si resulta que el problema era thin content masivo.
JobPosting o BroadcastEvent en VideoObject, no es una vía general para posts de blog ni páginas de servicios. La alternativa no es pinguear más, sino mantener un sitemap limpio con lastmod real solo cuando hubo cambios significativos.En dominios consolidados, entre horas y pocos días. En dominios nuevos o con baja autoridad, puede tardar varias semanas y, en algunos casos, no llegar a indexarse nunca si el predictor de calidad lo descarta. No hay un plazo oficial: depende de la autoridad del dominio y de la calidad de la URL.
Significa que Google rastreó la URL, evaluó el contenido y decidió no incluirlo en el índice. Es un juicio activo de calidad. Las causas más comunes son thin content, duplicidad blanda con otras URLs y canibalización con páginas ya posicionadas del propio sitio.
Significa que Google sabe que la URL existe pero todavía no la ha rastreado. La explicación por defecto de Google es que el bot reprogramó el rastreo para no sobrecargar el servidor. Cuando aparece en masa en URLs importantes, suele indicar baja prioridad de rastreo, arquitectura interna débil o señales agregadas de calidad insuficientes.
Acelera el rastreo si Google ya iba a indexar la URL. No cambia el resultado si Google decidió no indexarla por calidad. Tiene cuota diaria limitada y no es una solución a problemas de fondo, solo a casos puntuales de URLs valiosas que tardan demasiado en ser descubiertas.
Porque indexación no es calidad absoluta, es decisión relativa al dominio. URLs basura en dominios con autoridad consolidada heredan el beneficio de la duda; URLs decentes en dominios nuevos no lo tienen. El leak de 2024 documentó la existencia de una señal agregada de autoridad de dominio, aunque su peso exacto en cada sistema no es público.
No por ser de IA, sino por sus efectos habituales: bajo aporte editorial, baja originalidad y patrones repetitivos. Contenido de IA reescrito sustantivamente por un humano experto, con datos propios y ángulo diferencial, se indexa igual que contenido humano. Contenido de IA publicado en crudo se indexa peor.
Es habitual que una parte considerable del inventario quede sin indexar en sitios medianos, sobre todo si hay paginaciones, archivos de tags o búsquedas internas. Cuando la proporción se vuelve mayoritaria de forma sostenida, hay un problema sistémico que vale la pena auditar.
Sí, en sitios con problemas de calidad agregada. Reducir el ruido eleva la calidad percibida del dominio y, con ello, la probabilidad de que el resto de URLs reciba evaluación favorable. Es una de las palancas más infravaloradas en SEO técnico.
Sobre el autor
Federico [Apellido] es fundador de AutoridadDigital.com. Trabaja con sitios donde el problema real de indexación nunca es el que el cliente cree que es, y donde decir la verdad incómoda sobre la calidad del dominio acaba siendo más útil que una checklist técnica de doce puntos.
Hacemos auditorías de indexación que separan los problemas técnicos de los problemas de calidad. Si tu problema se resuelve con un noindex mal puesto, te lo decimos en la primera llamada. Si es de calidad agregada del dominio, también, aunque sea más incómodo. El Método A.U.T.O.R.I.D.A.D. integra este diagnóstico en su segunda fase.Solicitar auditoría de indexación
FOUNDER & SEO LEAD
Founder de Autoridad Digital. Especialista en SEO, Generative Engine Optimization, Topical Authority y Authority Stacking, PR Digital. Todos los artículos del blog están firmados por él.
Respuesta rápida: si tu web tiene menos de 10.000 URLs útiles y Google indexa tus páginas nuevas en pocos días, probablemente no tienes un problema real de crawl budget. Antes de obsesionarte con rastreo, revisa calidad, arquitectura interna, enlazado, autoridad e indexabilidad. El crawl budget solo suele ser un problema real para sitios muy grandes, […]
26 de mayo de 2026Topical authority en español: por qué la playbook americana no funciona, qué confirmó el leak de Google 2024 sobre siteFocusScore, y el modelo que sí construye autoridad temática real en mercado hispano.
22 de mayo de 2026Por qué las playbooks SEO de SaaS B2B americanas (Ahrefs, HubSpot) no funcionan en España: volumen, intención de búsqueda, canales y qué estrategia sí genera leads cualificados.
Solicita una auditoría gratuita y descubriremos juntos cómo dominar tu nicho.
Solicitar Auditoría Gratuita