CARGANDO

5 de junio de 2026

Indexación: por qué Google decide no indexar tu contenido

La mayoría de problemas de indexación persistentes no son técnicos, son de calidad. Qué documentó el leak de 2024 y cómo diagnosticar el origen real.

PorFederico Noya

Founder & SEO Lead

Resumen ejecutivo

La indexación es la decisión de Google de incluir una URL en su base de datos de búsqueda, y es independiente del rastreo. Google rastrea más URLs de las que indexa.
Los dos estados que más confunden en Search Console son «Detectada: actualmente sin indexar» y «Rastreada: actualmente sin indexar». Significan problemas distintos y exigen acciones distintas.
El leak de 2024 documentó atributos internos compatibles con una visión no binaria del índice: estar indexado no garantiza estar en el nivel que rankea.
En muchas auditorías reales, la mayoría de problemas persistentes de indexación no son puramente técnicos: son juicios de calidad del dominio o de la URL que ninguna meta etiqueta arregla.
Pedir indexación manual desde Search Console no resuelve nada si el problema es de calidad. Solo acelera lo que Google ya iba a indexar por sí solo.

La indexación es el proceso por el que Google evalúa una URL rastreada y decide si la incluye en su base de datos de búsqueda, en qué nivel de prioridad la coloca y bajo qué señales de calidad la asocia. No es automática, no es un derecho del editor y no se garantiza con sitemap. Es una decisión activa de Google que combina señales técnicas, contenido y autoridad percibida del dominio.

La mayoría de artículos en español sobre por qué Google no indexa una URL acaba en la misma checklist de doce puntos técnicos: revisar robots.txt, comprobar noindex, validar canonical, verificar sitemap. La checklist resuelve algunos casos, sobre todo los más evidentes. El resto son problemas de calidad percibida que ninguna meta etiqueta arregla, y que el leak de la API de Content Warehouse de mayo de 2024 dejó por fin documentados con nombre y apellido.

1. Indexación no es lo mismo que rastreo (y aquí es donde casi todos se equivocan)

Rastreo e indexación son dos fases consecutivas pero independientes del pipeline de Google. Confundirlas lleva a aplicar la solución equivocada al problema equivocado.

El rastreo es la fase en la que Googlebot visita una URL y descarga su contenido. La indexación es la fase posterior, en la que el sistema de Google (internamente llamado Alexandria, según la documentación interna filtrada en 2024) evalúa el contenido descargado, lo procesa, lo desduplica contra otras URLs similares y decide si entra al índice. Son dos procesos distintos ejecutados por sistemas distintos.

La consecuencia operativa es esta: una URL puede ser rastreada sin ser indexada, y una URL no rastreada normalmente no será indexada. Google lo dice de forma explícita en su propia documentación: no todo lo que se rastrea acaba en el índice, porque cada página se evalúa, consolida y valora antes de decidir su inclusión. Si tu problema es que Google rastrea tu URL pero no la indexa, optimizar rastreo no va a resolver nada. El cuello de botella está después.

Fase	Qué hace Google	Sistema interno (según leak 2024)	Resultado posible
Descubrimiento	Encuentra la URL vía enlaces, sitemap o Search Console.	Trawler (scheduler)	URL conocida pero no rastreada todavía.
Rastreo	Googlebot visita la URL y descarga el contenido.	Trawler (crawler)	URL rastreada pero pendiente de evaluación.
Indexación	Evalúa contenido, desduplica, asigna señales y decide inclusión.	Alexandria	URL indexada, indexada en tier bajo, o descartada.
Ranking	Decide qué URLs indexadas mostrar para cada consulta.	Mustang + NavBoost	URL rankea, no rankea, o aparece muy abajo.

2. Los dos estados de Search Console que tienes que aprender a distinguir

Search Console te dice mucho más de lo que la mayoría de SEOs lee. Los dos estados que generan más dudas en este tema son «Detectada: actualmente sin indexar» y «Rastreada: actualmente sin indexar». Suenan parecidos pero significan cosas distintas.

2.1 Detectada: actualmente sin indexar

Significa que Google conoce la existencia de la URL (la ha encontrado vía sitemap o enlaces) pero todavía no la ha rastreado. La explicación oficial de Google es que el bot programó la visita y la pospuso, normalmente porque rastrearla en ese momento podía sobrecargar el sitio, y reprogramó el rastreo.

Esa es la lectura por defecto en URLs aisladas. Cuando este estado aparece en masa, en URLs importantes o en patrones consistentes, ya no conviene leerlo solo como una demora técnica: suele apuntar a baja prioridad de rastreo, arquitectura interna débil, ruido de URLs autogeneradas sin valor, o señales agregadas de calidad insuficientes que llevan al scheduler a posponer indefinidamente. Las causas habituales en ese escenario:

El servidor estaba sobrecargado o respondía lento en el momento previsto y Googlebot decidió no añadir presión.
La demanda de rastreo del dominio es baja y la URL no entró en la cola de prioridad.
El sistema estimó que el contenido probablemente no merecería indexación, basándose en señales del propio dominio y de URLs similares ya evaluadas.

En sitios pequeños es raro que «Detectada sin indexar» sea un problema sistémico. En sitios grandes con muchas URLs autogeneradas (facetas, paginaciones profundas, archivos vacíos), es habitual y normalmente correcto: Google está siendo eficiente.

2.2 Rastreada: actualmente sin indexar

Aquí la conversación cambia. Google ha rastreado la URL, ha descargado el contenido y, después de evaluarlo, ha decidido no incluirlo en el índice. Es un juicio activo, no una omisión pasiva.

Las razones operativas más comunes son:

El contenido se considera de calidad insuficiente (thin content, baja originalidad, poca utilidad percibida).
Existe duplicidad blanda con otras URLs del propio sitio o de terceros, sin que Google encuentre la versión «canónica» lo suficientemente distintiva.
La URL canibaliza intención de búsqueda con otra URL del dominio que ya está indexada y posicionada.
El dominio tiene un historial de publicar URLs similares de bajo valor y el predictor de calidad aplica un castigo agregado.

«Rastreada sin indexar» es la señal más incómoda porque elimina las excusas técnicas. Google vio el contenido, evaluó el contenido y no lo quiso.

Estado	Qué significa	Causa probable	Acción correcta
Detectada: actualmente sin indexar	Google conoce la URL pero no la ha rastreado.	Reprogramación por capacidad del servidor en URLs aisladas. Baja prioridad, arquitectura débil o calidad agregada insuficiente cuando ocurre en masa.	Si es aislado, esperar. Si es sistémico, subir calidad y autoridad del dominio, reforzar enlazado interno y reducir el ruido de URLs autogeneradas.
Rastreada: actualmente sin indexar	Google rastreó la URL y decidió no indexarla.	Calidad insuficiente, duplicidad blanda, canibalización o thin content.	Mejorar sustancialmente el contenido, consolidar URLs duplicadas, o eliminar la URL si no aporta valor.

Pedir indexación manual desde la herramienta de inspección de URLs en Search Console no resuelve ni uno ni otro. Acelera el rastreo en el primer caso (si Google ya iba a hacerlo) y obliga a una segunda evaluación en el segundo (que normalmente devuelve el mismo veredicto). No es una varita mágica, es un ping con cuota limitada.

3. Lo que el leak de 2024 mostró sobre el índice de Google

Nota importante sobre el leak. Cuando este artículo se refiere al leak de la API de Content Warehouse de mayo de 2024, no estamos afirmando que Google haya confirmado públicamente el peso ni la mecánica exacta de cada atributo. La documentación filtrada muestra la existencia de sistemas internos y señales, pero no su ponderación final. Aquí se usa como evidencia técnica complementaria, cruzada con documentación oficial de Search Console, declaraciones públicas de Google y experiencia de auditoría.

Hasta mayo de 2024, la idea pública del índice de Google era binaria: una URL estaba indexada o no lo estaba. El leak de la API de Content Warehouse desmontó esa simplificación. Lo desarrolló Mike King en su análisis publicado en iPullRank, que es la lectura técnica de referencia.

3.1 El índice no es uno, son varios niveles

La documentación filtrada identificó tiers diferenciados en la arquitectura del índice, con nombres internos que dan una pista bastante directa de la jerarquía: Base, Zeppelins y Landfills. La interpretación de qué representa cada uno proviene del análisis de King basado en pistas contextuales del propio leak; Google no ha validado públicamente esa lectura, pero es la más coherente con la evidencia disponible.

Base. El tier alto. Páginas consideradas relevantes para consultas competitivas. Almacenadas, según la interpretación de King, en infraestructura rápida (memoria flash). Son las URLs que Google considera dignas de competir por las búsquedas que importan.
Zeppelins. El tier intermedio. Páginas indexadas que pueden aparecer en SERPs, pero con desventaja competitiva para queries de alta intención. Almacenadas en infraestructura más lenta.
Landfills. El tier bajo. Páginas técnicamente «en el índice» pero con prácticamente cero posibilidades de aparecer para consultas relevantes. Almacenadas en infraestructura barata. Existen, pero a efectos de tráfico orgánico es como si no existieran.

La consecuencia es relevante: tener una URL «indexada» según Search Console no significa que esa URL pueda competir por nada. Si está en Landfills, está enterrada. Y Search Console no te dice en qué tier está cada URL. Lo deduces por su comportamiento: si una URL está indexada pero no recibe impresiones para queries razonables, probablemente esté en el tier bajo.

3.2 Qué señales sugiere el leak que entran en juego

El leak documentó múltiples atributos del modelo PerDocData. La existencia de estos atributos está en la documentación filtrada; su peso exacto y su mecánica completa de uso no. Los más relevantes para este artículo son tres:

siteAuthority. Una señal de autoridad agregada del dominio, descrita en la documentación como integrada en el sistema de calidad Q*. Google había sostenido durante años en sus comunicaciones públicas que no usaba una métrica de «domain authority» interna; el leak documenta una señal con ese nombre. Cómo se calcula y con qué peso entra en cada sistema aguas abajo no es público.
contentEffort. Atributo descrito en la documentación filtrada como una estimación a nivel de página del esfuerzo invertido en su producción. Compatible con la hipótesis de que penaliza contenido generado de forma masiva con poco aporte humano, aunque su uso específico no está confirmado oficialmente.
OriginalContentScore. Atributo descrito como evaluación de la originalidad del contenido respecto a lo que ya existe en el índice. Refuerza la lectura de que la reformulación de información ya disponible sin aporte diferencial tiene un techo.

Hay una cuarta señal que merece mención específica: hostAge, documentado en el leak en un contexto compatible con un mecanismo de tipo sandbox para dominios nuevos. Durante un periodo inicial, Google parece ser conservador asignando tiers de índice a URLs de dominios recientes. No es un castigo en sentido estricto; es coherente con una espera prudencial mientras se acumulan señales suficientes para juzgar la calidad.

El conjunto de estas señales refuerza algo que muchos SEOs experimentados sabían por intuición y ahora pueden nombrar: la indexación funciona como un juicio de calidad, ejecutado tanto a nivel de URL como a nivel de dominio agregado. Una URL excelente en un dominio con siteAuthority pobre lo tiene más difícil que una URL mediocre en un dominio fuerte.

4. Causas técnicas reales de no-indexación (las que sí importan)

Las causas técnicas representan, en nuestra experiencia, una minoría de los problemas de indexación persistentes en sitios reales. No son la mayoría, pero conviene descartarlas primero porque son baratas de auditar y resolver. Estas son las que sí mueven la aguja, en orden de frecuencia:

Directiva noindex activa sin querer. El clásico. Meta robots con noindex heredado del entorno de staging, configuración de un plugin de SEO que activó noindex en categorías o etiquetas, o cabecera HTTP X-Robots-Tag inadvertida. Verificación en treinta segundos con la herramienta de inspección de URLs.
Canonical apuntando a otra URL. Si tu URL declara como canónica a otra URL del sitio (o del exterior), estás diciéndole a Google que no la indexe a ella, sino a la canónica. Errores de canonical mal configurado en CMS, multiidioma o ecommerce son habituales y devastadores.
Bloqueo en robots.txt. Google no puede rastrear el contenido de la URL, por lo que normalmente no podrá indexarla correctamente. En casos puntuales puede aparecer indexada sin contenido útil si otros sitios la enlazan: Google entiende que la URL existe pero no puede leer qué hay dentro. Caso típico: robots.txt heredado de una migración que bloquea patrones de URL que ahora sí deberían rastrearse.
Errores 5xx persistentes o respuestas lentas. Si Google intenta rastrear la URL y el servidor falla o tarda demasiado de forma sostenida, deja de intentarlo durante días o semanas.
Renderizado JavaScript fallido. Google renderiza JavaScript, pero con retraso y con limitaciones. Si el contenido principal aparece solo tras ejecución compleja, hidratación tardía o llamadas a APIs no accesibles, lo que Google indexa puede ser una página esencialmente vacía.
Soft 404. URLs que devuelven 200 OK pero con contenido tan escaso o tan parecido a una página de error que Google las clasifica internamente como 404 lógicas. Comunes en páginas de búsqueda interna sin resultados, categorías vacías o filtros sin productos.
Sitemap mal mantenido. URLs noindex en sitemap, URLs redirigidas en sitemap, URLs canonicalizadas a otras en sitemap. Cada inconsistencia erosiona la confianza que Google deposita en tu sitemap como fuente de inventario.

Esta lista es exhaustiva para el bloque técnico. Si después de auditarla no has encontrado el problema, el problema no es técnico.

5. Causas de calidad (las que nadie quiere oír)

Aquí empieza la parte incómoda. Cuando una URL técnicamente válida no se indexa, o se indexa en el tier bajo, la causa más probable es que Google ha decidido que no merece más espacio del que ya ocupa. Las razones suelen ser estas:

Thin content. Páginas con poco contenido sustantivo respecto a la intención de búsqueda. No es cuestión de palabras (hay páginas excelentes de 600 palabras y catastróficas de 3.000). Es cuestión de si la página resuelve la pregunta implícita o solo la rodea.
Duplicidad blanda interna. Múltiples URLs del mismo sitio cubren prácticamente la misma intención con variaciones cosméticas. Google elige una y descarta el resto. Habitual en ecommerce con categorías y subcategorías que se solapan, o en blogs que abordan el mismo tema desde ángulos casi idénticos.
Canibalización con URLs ya indexadas. La URL nueva compite por la misma intención que una URL antigua del propio dominio que ya rankea. Google decide no indexar la nueva porque no aporta diferencial.
Calidad agregada del dominio percibida como baja. Si el dominio publica con regularidad URLs de bajo aporte, el predictor agregado se vuelve más estricto con cada URL nueva. Es decir: las URLs malas del pasado penalizan la indexación de las URLs nuevas, incluso si las nuevas son mejores.
Falta de E-E-A-T verificable en temas YMYL. Para temas de Your Money or Your Life (salud, finanzas, legal), Google exige señales de experiencia, expertise, autoridad y confianza. Sin autor identificable, sin credenciales verificables, sin fuentes citadas, la indexación de URLs YMYL en dominios nuevos o medianos se vuelve un cuello de botella sistemático.
Contenido generado por IA sin reescritura humana sustantiva. No es que Google detecte IA con perfección quirúrgica. Es que el output de IA sin trabajo humano encima tiende a tener patrones repetitivos, baja originalidad y bajo aporte, y esos son los atributos que penalizan la indexación.

La conversación honesta con el cliente es esta: si tus URLs no se indexan, probablemente tu contenido no aporta lo suficiente o tu dominio no tiene la autoridad para que Google le dé el beneficio de la duda. Auditar canonicals durante tres semanas cuando el problema real es que el dominio publica posts de 800 palabras genéricos es perder tiempo y dinero.

6. Cómo diagnosticar el origen real del problema

El diagnóstico serio sigue un orden de descarte, no una checklist desordenada. La lógica es ir de lo barato y rápido a lo caro y lento, y de lo binario a lo subjetivo.

Inspección de URL en Search Console. Te dice si la URL está indexada, en qué estado exacto, qué canonical reconoce Google, qué bloqueos detecta y cuándo fue el último rastreo. Una proporción significativa de los casos se resuelve aquí: descubres un noindex, un canonical mal puesto o un bloqueo en robots.txt.
Análisis del estado agregado en el informe de Páginas. Si tienes cientos o miles de URLs en «Rastreada sin indexar» o «Detectada sin indexar», el problema no es de URLs individuales, es sistémico. La acción individual sobre cada URL es inútil; hace falta una hipótesis de sitio.
Comparación con el sitemap. ¿Cuántas URLs envías vs cuántas indexa Google? Si envías 5.000 y solo indexa 2.000, hay un mensaje claro: Google considera que la mitad de tu inventario no merece estar en el índice. Eso es un problema de calidad agregada, no de sitemap.
Evaluación honesta del contenido. Coge diez URLs en «Rastreada sin indexar» al azar. Compáralas con las URLs del top 10 de Google para la query principal de cada una. ¿Aporta tu URL algo distinto, algún ángulo, algún dato propio, alguna experiencia verificable? Si la respuesta es no en la mayoría, ya tienes el diagnóstico.
Auditoría de calidad agregada del dominio. ¿Cuántas URLs publica el dominio con contenido manifiestamente thin? ¿Hay categorías enteras de URLs autogeneradas sin valor (tags vacíos, archivos por fecha, búsquedas internas)? ¿La proporción de URLs útiles vs ruido es saludable?
Análisis de autoridad y enlazado. Si las cuatro fases anteriores no han encontrado el problema, el cuello de botella es de autoridad. URLs nuevas en dominios sin autoridad consolidada sufren más tiempo de espera en «Detectada sin indexar» y más probabilidad de aterrizar en Zeppelins o Landfills.

Este orden importa. Saltarse el paso 1 y atacar directamente «voy a mejorar la calidad del contenido» es honesto pero ineficiente si resulta que el problema era un noindex heredado. Saltarse el paso 4 y atacar directamente «voy a construir backlinks» es caro y lento si resulta que el problema era thin content masivo.

7. Errores comunes al intentar forzar la indexación

Pedir indexación manual en bucle. La herramienta de inspección de URLs tiene cuota limitada y, lo más importante, no cambia el juicio de calidad. Forzar reevaluación de una URL que Google ya descartó por thin content devuelve el mismo veredicto en 48 horas. No insistas, mejora la URL.
Generar más volumen de contenido para «alimentar» el índice. Publicar más URLs mediocres baja la calidad agregada del dominio y empeora el problema. Menos URLs y mejores es casi siempre la respuesta correcta.
Usar IndexNow o pings de sitemap como solución. IndexNow es un protocolo de buscadores participantes (Bing y Yandex lo soportan; Google no). La API de indexación oficial de Google existe pero está restringida a páginas con JobPosting o BroadcastEvent en VideoObject, no es una vía general para posts de blog ni páginas de servicios. La alternativa no es pinguear más, sino mantener un sitemap limpio con lastmod real solo cuando hubo cambios significativos.
Atribuir todo a «core update reciente». Es la excusa fácil cuando se cae la indexación. A veces es cierto, pero la mayoría de las veces el core update solo amplificó un problema preexistente de calidad que llevaba meses larvado.
Esperar a que la indexación llegue sola publicando más. Si Google rechaza sistemáticamente tu contenido, publicar más volumen sin cambiar el nivel de calidad solo refuerza el patrón. El predictor de calidad agregada empeora con cada URL pobre.
Comprar backlinks para acelerar indexación. Funcionaba en 2015. En 2026, con SpamBrain operativo a escala, comprar enlaces de baja calidad puede empujar la URL al tier bajo del índice o disparar señales de spam que afectan al dominio entero.
Eliminar y republicar la URL con el mismo contenido. Cambiar la URL no cambia el juicio de Google sobre el contenido. Si el problema es de calidad, la URL nueva acaba en el mismo estado en cuestión de semanas.

8. Preguntas frecuentes

¿Cuánto tarda Google en indexar una URL nueva?

En dominios consolidados, entre horas y pocos días. En dominios nuevos o con baja autoridad, puede tardar varias semanas y, en algunos casos, no llegar a indexarse nunca si el predictor de calidad lo descarta. No hay un plazo oficial: depende de la autoridad del dominio y de la calidad de la URL.

¿Qué significa exactamente «Rastreada: actualmente sin indexar»?

Significa que Google rastreó la URL, evaluó el contenido y decidió no incluirlo en el índice. Es un juicio activo de calidad. Las causas más comunes son thin content, duplicidad blanda con otras URLs y canibalización con páginas ya posicionadas del propio sitio.

¿Y «Detectada: actualmente sin indexar»?

Significa que Google sabe que la URL existe pero todavía no la ha rastreado. La explicación por defecto de Google es que el bot reprogramó el rastreo para no sobrecargar el servidor. Cuando aparece en masa en URLs importantes, suele indicar baja prioridad de rastreo, arquitectura interna débil o señales agregadas de calidad insuficientes.

¿Pedir indexación manual desde Search Console acelera el proceso?

Acelera el rastreo si Google ya iba a indexar la URL. No cambia el resultado si Google decidió no indexarla por calidad. Tiene cuota diaria limitada y no es una solución a problemas de fondo, solo a casos puntuales de URLs valiosas que tardan demasiado en ser descubiertas.

¿Por qué Google indexa URLs basura de otros sitios y no las mías?

Porque indexación no es calidad absoluta, es decisión relativa al dominio. URLs basura en dominios con autoridad consolidada heredan el beneficio de la duda; URLs decentes en dominios nuevos no lo tienen. El leak de 2024 documentó la existencia de una señal agregada de autoridad de dominio, aunque su peso exacto en cada sistema no es público.

¿El contenido generado con IA se indexa peor?

No por ser de IA, sino por sus efectos habituales: bajo aporte editorial, baja originalidad y patrones repetitivos. Contenido de IA reescrito sustantivamente por un humano experto, con datos propios y ángulo diferencial, se indexa igual que contenido humano. Contenido de IA publicado en crudo se indexa peor.

¿Cuántas URLs en «sin indexar» son normales en un sitio sano?

Es habitual que una parte considerable del inventario quede sin indexar en sitios medianos, sobre todo si hay paginaciones, archivos de tags o búsquedas internas. Cuando la proporción se vuelve mayoritaria de forma sostenida, hay un problema sistémico que vale la pena auditar.

¿Eliminar URLs de baja calidad mejora la indexación de las demás?

Sí, en sitios con problemas de calidad agregada. Reducir el ruido eleva la calidad percibida del dominio y, con ello, la probabilidad de que el resto de URLs reciba evaluación favorable. Es una de las palancas más infravaloradas en SEO técnico.

Fuentes

Google Search Central, «Page indexing report» (support.google.com). Consultada 2026-05.
Google Search Central, «Large Site Owner’s Guide to Managing Your Crawl Budget» (developers.google.com). Consultada 2026-05.
Google Search Central Blog, «Sitemaps ping endpoint is going away» (developers.google.com). Consultada 2026-05.
Google Search Central, «Indexing API Quickstart» (restricciones a JobPosting y BroadcastEvent) (developers.google.com). Consultada 2026-05.
iPullRank, Mike King — «Secrets from the Google Algorithm Leak» (análisis de la arquitectura Trawler/Alexandria/Mustang y de los tiers Base/Zeppelins/Landfills) (ipullrank.com). Consultada 2026-05.
Search Engine Land, «Huge Google Search document leak reveals inner workings of ranking algorithm» (searchengineland.com). Consultada 2026-05.
Hobo Web, «Google’s Leaked CompressedQualitySignals: Advanced SEO Analysis» (análisis de siteAuthority, contentEffort y OriginalContentScore en el sistema Q*) (hobo-web.co.uk). Consultada 2026-05.
Onely, «How To Fix Discovered Currently Not Indexed in Google Search Console» (onely.com). Consultada 2026-05.

Sobre el autor

Federico [Apellido] es fundador de AutoridadDigital.com. Trabaja con sitios donde el problema real de indexación nunca es el que el cliente cree que es, y donde decir la verdad incómoda sobre la calidad del dominio acaba siendo más útil que una checklist técnica de doce puntos.

Ver perfil completo

¿Una parte considerable de tu sitio aparece como «sin indexar» en Search Console?

Hacemos auditorías de indexación que separan los problemas técnicos de los problemas de calidad. Si tu problema se resuelve con un noindex mal puesto, te lo decimos en la primera llamada. Si es de calidad agregada del dominio, también, aunque sea más incómodo. El Método A.U.T.O.R.I.D.A.D. integra este diagnóstico en su segunda fase.Solicitar auditoría de indexación

Sobre el autorFederico Noya

FOUNDER & SEO LEAD

Founder de Autoridad Digital. Especialista en SEO, Generative Engine Optimization, Topical Authority y Authority Stacking, PR Digital. Todos los artículos del blog están firmados por él.

Ver todos sus artículos →

¿Quieres aplicar estas estrategias a tu negocio?

Solicita una auditoría gratuita y descubriremos juntos cómo dominar tu nicho.

Solicitar Auditoría Gratuita

5 de junio de 2026

Indexación: por qué Google decide no indexar tu contenido

La mayoría de problemas de indexación persistentes no son técnicos, son de calidad. Qué documentó el leak de 2024 y cómo diagnosticar el origen real.

PorFederico Noya

Founder & SEO Lead

Resumen ejecutivo

La indexación es la decisión de Google de incluir una URL en su base de datos de búsqueda, y es independiente del rastreo. Google rastrea más URLs de las que indexa.
Los dos estados que más confunden en Search Console son «Detectada: actualmente sin indexar» y «Rastreada: actualmente sin indexar». Significan problemas distintos y exigen acciones distintas.
El leak de 2024 documentó atributos internos compatibles con una visión no binaria del índice: estar indexado no garantiza estar en el nivel que rankea.
En muchas auditorías reales, la mayoría de problemas persistentes de indexación no son puramente técnicos: son juicios de calidad del dominio o de la URL que ninguna meta etiqueta arregla.
Pedir indexación manual desde Search Console no resuelve nada si el problema es de calidad. Solo acelera lo que Google ya iba a indexar por sí solo.

1. Indexación no es lo mismo que rastreo (y aquí es donde casi todos se equivocan)

Rastreo e indexación son dos fases consecutivas pero independientes del pipeline de Google. Confundirlas lleva a aplicar la solución equivocada al problema equivocado.

Fase	Qué hace Google	Sistema interno (según leak 2024)	Resultado posible
Descubrimiento	Encuentra la URL vía enlaces, sitemap o Search Console.	Trawler (scheduler)	URL conocida pero no rastreada todavía.
Rastreo	Googlebot visita la URL y descarga el contenido.	Trawler (crawler)	URL rastreada pero pendiente de evaluación.
Indexación	Evalúa contenido, desduplica, asigna señales y decide inclusión.	Alexandria	URL indexada, indexada en tier bajo, o descartada.
Ranking	Decide qué URLs indexadas mostrar para cada consulta.	Mustang + NavBoost	URL rankea, no rankea, o aparece muy abajo.

2. Los dos estados de Search Console que tienes que aprender a distinguir

2.1 Detectada: actualmente sin indexar

El servidor estaba sobrecargado o respondía lento en el momento previsto y Googlebot decidió no añadir presión.
La demanda de rastreo del dominio es baja y la URL no entró en la cola de prioridad.
El sistema estimó que el contenido probablemente no merecería indexación, basándose en señales del propio dominio y de URLs similares ya evaluadas.

2.2 Rastreada: actualmente sin indexar

Aquí la conversación cambia. Google ha rastreado la URL, ha descargado el contenido y, después de evaluarlo, ha decidido no incluirlo en el índice. Es un juicio activo, no una omisión pasiva.

Las razones operativas más comunes son:

El contenido se considera de calidad insuficiente (thin content, baja originalidad, poca utilidad percibida).
Existe duplicidad blanda con otras URLs del propio sitio o de terceros, sin que Google encuentre la versión «canónica» lo suficientemente distintiva.
La URL canibaliza intención de búsqueda con otra URL del dominio que ya está indexada y posicionada.
El dominio tiene un historial de publicar URLs similares de bajo valor y el predictor de calidad aplica un castigo agregado.

«Rastreada sin indexar» es la señal más incómoda porque elimina las excusas técnicas. Google vio el contenido, evaluó el contenido y no lo quiso.

Estado	Qué significa	Causa probable	Acción correcta
Detectada: actualmente sin indexar	Google conoce la URL pero no la ha rastreado.	Reprogramación por capacidad del servidor en URLs aisladas. Baja prioridad, arquitectura débil o calidad agregada insuficiente cuando ocurre en masa.	Si es aislado, esperar. Si es sistémico, subir calidad y autoridad del dominio, reforzar enlazado interno y reducir el ruido de URLs autogeneradas.
Rastreada: actualmente sin indexar	Google rastreó la URL y decidió no indexarla.	Calidad insuficiente, duplicidad blanda, canibalización o thin content.	Mejorar sustancialmente el contenido, consolidar URLs duplicadas, o eliminar la URL si no aporta valor.

3. Lo que el leak de 2024 mostró sobre el índice de Google

3.1 El índice no es uno, son varios niveles

Base. El tier alto. Páginas consideradas relevantes para consultas competitivas. Almacenadas, según la interpretación de King, en infraestructura rápida (memoria flash). Son las URLs que Google considera dignas de competir por las búsquedas que importan.
Zeppelins. El tier intermedio. Páginas indexadas que pueden aparecer en SERPs, pero con desventaja competitiva para queries de alta intención. Almacenadas en infraestructura más lenta.
Landfills. El tier bajo. Páginas técnicamente «en el índice» pero con prácticamente cero posibilidades de aparecer para consultas relevantes. Almacenadas en infraestructura barata. Existen, pero a efectos de tráfico orgánico es como si no existieran.

3.2 Qué señales sugiere el leak que entran en juego

siteAuthority. Una señal de autoridad agregada del dominio, descrita en la documentación como integrada en el sistema de calidad Q*. Google había sostenido durante años en sus comunicaciones públicas que no usaba una métrica de «domain authority» interna; el leak documenta una señal con ese nombre. Cómo se calcula y con qué peso entra en cada sistema aguas abajo no es público.
contentEffort. Atributo descrito en la documentación filtrada como una estimación a nivel de página del esfuerzo invertido en su producción. Compatible con la hipótesis de que penaliza contenido generado de forma masiva con poco aporte humano, aunque su uso específico no está confirmado oficialmente.
OriginalContentScore. Atributo descrito como evaluación de la originalidad del contenido respecto a lo que ya existe en el índice. Refuerza la lectura de que la reformulación de información ya disponible sin aporte diferencial tiene un techo.

4. Causas técnicas reales de no-indexación (las que sí importan)

Directiva noindex activa sin querer. El clásico. Meta robots con noindex heredado del entorno de staging, configuración de un plugin de SEO que activó noindex en categorías o etiquetas, o cabecera HTTP X-Robots-Tag inadvertida. Verificación en treinta segundos con la herramienta de inspección de URLs.
Canonical apuntando a otra URL. Si tu URL declara como canónica a otra URL del sitio (o del exterior), estás diciéndole a Google que no la indexe a ella, sino a la canónica. Errores de canonical mal configurado en CMS, multiidioma o ecommerce son habituales y devastadores.
Bloqueo en robots.txt. Google no puede rastrear el contenido de la URL, por lo que normalmente no podrá indexarla correctamente. En casos puntuales puede aparecer indexada sin contenido útil si otros sitios la enlazan: Google entiende que la URL existe pero no puede leer qué hay dentro. Caso típico: robots.txt heredado de una migración que bloquea patrones de URL que ahora sí deberían rastrearse.
Errores 5xx persistentes o respuestas lentas. Si Google intenta rastrear la URL y el servidor falla o tarda demasiado de forma sostenida, deja de intentarlo durante días o semanas.
Renderizado JavaScript fallido. Google renderiza JavaScript, pero con retraso y con limitaciones. Si el contenido principal aparece solo tras ejecución compleja, hidratación tardía o llamadas a APIs no accesibles, lo que Google indexa puede ser una página esencialmente vacía.
Soft 404. URLs que devuelven 200 OK pero con contenido tan escaso o tan parecido a una página de error que Google las clasifica internamente como 404 lógicas. Comunes en páginas de búsqueda interna sin resultados, categorías vacías o filtros sin productos.
Sitemap mal mantenido. URLs noindex en sitemap, URLs redirigidas en sitemap, URLs canonicalizadas a otras en sitemap. Cada inconsistencia erosiona la confianza que Google deposita en tu sitemap como fuente de inventario.

Esta lista es exhaustiva para el bloque técnico. Si después de auditarla no has encontrado el problema, el problema no es técnico.

5. Causas de calidad (las que nadie quiere oír)

Thin content. Páginas con poco contenido sustantivo respecto a la intención de búsqueda. No es cuestión de palabras (hay páginas excelentes de 600 palabras y catastróficas de 3.000). Es cuestión de si la página resuelve la pregunta implícita o solo la rodea.
Duplicidad blanda interna. Múltiples URLs del mismo sitio cubren prácticamente la misma intención con variaciones cosméticas. Google elige una y descarta el resto. Habitual en ecommerce con categorías y subcategorías que se solapan, o en blogs que abordan el mismo tema desde ángulos casi idénticos.
Canibalización con URLs ya indexadas. La URL nueva compite por la misma intención que una URL antigua del propio dominio que ya rankea. Google decide no indexar la nueva porque no aporta diferencial.
Calidad agregada del dominio percibida como baja. Si el dominio publica con regularidad URLs de bajo aporte, el predictor agregado se vuelve más estricto con cada URL nueva. Es decir: las URLs malas del pasado penalizan la indexación de las URLs nuevas, incluso si las nuevas son mejores.
Falta de E-E-A-T verificable en temas YMYL. Para temas de Your Money or Your Life (salud, finanzas, legal), Google exige señales de experiencia, expertise, autoridad y confianza. Sin autor identificable, sin credenciales verificables, sin fuentes citadas, la indexación de URLs YMYL en dominios nuevos o medianos se vuelve un cuello de botella sistemático.
Contenido generado por IA sin reescritura humana sustantiva. No es que Google detecte IA con perfección quirúrgica. Es que el output de IA sin trabajo humano encima tiende a tener patrones repetitivos, baja originalidad y bajo aporte, y esos son los atributos que penalizan la indexación.

6. Cómo diagnosticar el origen real del problema

El diagnóstico serio sigue un orden de descarte, no una checklist desordenada. La lógica es ir de lo barato y rápido a lo caro y lento, y de lo binario a lo subjetivo.

Inspección de URL en Search Console. Te dice si la URL está indexada, en qué estado exacto, qué canonical reconoce Google, qué bloqueos detecta y cuándo fue el último rastreo. Una proporción significativa de los casos se resuelve aquí: descubres un noindex, un canonical mal puesto o un bloqueo en robots.txt.
Análisis del estado agregado en el informe de Páginas. Si tienes cientos o miles de URLs en «Rastreada sin indexar» o «Detectada sin indexar», el problema no es de URLs individuales, es sistémico. La acción individual sobre cada URL es inútil; hace falta una hipótesis de sitio.
Comparación con el sitemap. ¿Cuántas URLs envías vs cuántas indexa Google? Si envías 5.000 y solo indexa 2.000, hay un mensaje claro: Google considera que la mitad de tu inventario no merece estar en el índice. Eso es un problema de calidad agregada, no de sitemap.
Evaluación honesta del contenido. Coge diez URLs en «Rastreada sin indexar» al azar. Compáralas con las URLs del top 10 de Google para la query principal de cada una. ¿Aporta tu URL algo distinto, algún ángulo, algún dato propio, alguna experiencia verificable? Si la respuesta es no en la mayoría, ya tienes el diagnóstico.
Auditoría de calidad agregada del dominio. ¿Cuántas URLs publica el dominio con contenido manifiestamente thin? ¿Hay categorías enteras de URLs autogeneradas sin valor (tags vacíos, archivos por fecha, búsquedas internas)? ¿La proporción de URLs útiles vs ruido es saludable?
Análisis de autoridad y enlazado. Si las cuatro fases anteriores no han encontrado el problema, el cuello de botella es de autoridad. URLs nuevas en dominios sin autoridad consolidada sufren más tiempo de espera en «Detectada sin indexar» y más probabilidad de aterrizar en Zeppelins o Landfills.

7. Errores comunes al intentar forzar la indexación

Pedir indexación manual en bucle. La herramienta de inspección de URLs tiene cuota limitada y, lo más importante, no cambia el juicio de calidad. Forzar reevaluación de una URL que Google ya descartó por thin content devuelve el mismo veredicto en 48 horas. No insistas, mejora la URL.
Generar más volumen de contenido para «alimentar» el índice. Publicar más URLs mediocres baja la calidad agregada del dominio y empeora el problema. Menos URLs y mejores es casi siempre la respuesta correcta.
Usar IndexNow o pings de sitemap como solución. IndexNow es un protocolo de buscadores participantes (Bing y Yandex lo soportan; Google no). La API de indexación oficial de Google existe pero está restringida a páginas con JobPosting o BroadcastEvent en VideoObject, no es una vía general para posts de blog ni páginas de servicios. La alternativa no es pinguear más, sino mantener un sitemap limpio con lastmod real solo cuando hubo cambios significativos.
Atribuir todo a «core update reciente». Es la excusa fácil cuando se cae la indexación. A veces es cierto, pero la mayoría de las veces el core update solo amplificó un problema preexistente de calidad que llevaba meses larvado.
Esperar a que la indexación llegue sola publicando más. Si Google rechaza sistemáticamente tu contenido, publicar más volumen sin cambiar el nivel de calidad solo refuerza el patrón. El predictor de calidad agregada empeora con cada URL pobre.
Comprar backlinks para acelerar indexación. Funcionaba en 2015. En 2026, con SpamBrain operativo a escala, comprar enlaces de baja calidad puede empujar la URL al tier bajo del índice o disparar señales de spam que afectan al dominio entero.
Eliminar y republicar la URL con el mismo contenido. Cambiar la URL no cambia el juicio de Google sobre el contenido. Si el problema es de calidad, la URL nueva acaba en el mismo estado en cuestión de semanas.

8. Preguntas frecuentes

¿Cuánto tarda Google en indexar una URL nueva?

¿Qué significa exactamente «Rastreada: actualmente sin indexar»?

¿Y «Detectada: actualmente sin indexar»?

¿Pedir indexación manual desde Search Console acelera el proceso?

¿Por qué Google indexa URLs basura de otros sitios y no las mías?

¿El contenido generado con IA se indexa peor?

¿Cuántas URLs en «sin indexar» son normales en un sitio sano?

¿Eliminar URLs de baja calidad mejora la indexación de las demás?

Fuentes

Google Search Central, «Page indexing report» (support.google.com). Consultada 2026-05.
Google Search Central, «Large Site Owner’s Guide to Managing Your Crawl Budget» (developers.google.com). Consultada 2026-05.
Google Search Central Blog, «Sitemaps ping endpoint is going away» (developers.google.com). Consultada 2026-05.
Google Search Central, «Indexing API Quickstart» (restricciones a JobPosting y BroadcastEvent) (developers.google.com). Consultada 2026-05.
iPullRank, Mike King — «Secrets from the Google Algorithm Leak» (análisis de la arquitectura Trawler/Alexandria/Mustang y de los tiers Base/Zeppelins/Landfills) (ipullrank.com). Consultada 2026-05.
Search Engine Land, «Huge Google Search document leak reveals inner workings of ranking algorithm» (searchengineland.com). Consultada 2026-05.
Hobo Web, «Google’s Leaked CompressedQualitySignals: Advanced SEO Analysis» (análisis de siteAuthority, contentEffort y OriginalContentScore en el sistema Q*) (hobo-web.co.uk). Consultada 2026-05.
Onely, «How To Fix Discovered Currently Not Indexed in Google Search Console» (onely.com). Consultada 2026-05.

Sobre el autor

Ver perfil completo

¿Una parte considerable de tu sitio aparece como «sin indexar» en Search Console?

Sobre el autorFederico Noya

FOUNDER & SEO LEAD

Founder de Autoridad Digital. Especialista en SEO, Generative Engine Optimization, Topical Authority y Authority Stacking, PR Digital. Todos los artículos del blog están firmados por él.

Ver todos sus artículos →

¿Quieres aplicar estas estrategias a tu negocio?

Solicita una auditoría gratuita y descubriremos juntos cómo dominar tu nicho.

Solicitar Auditoría Gratuita

Indexación: por qué Google decide no indexar tu contenido

1. Indexación no es lo mismo que rastreo (y aquí es donde casi todos se equivocan)

2. Los dos estados de Search Console que tienes que aprender a distinguir

2.1 Detectada: actualmente sin indexar

2.2 Rastreada: actualmente sin indexar

3. Lo que el leak de 2024 mostró sobre el índice de Google

3.1 El índice no es uno, son varios niveles

3.2 Qué señales sugiere el leak que entran en juego

4. Causas técnicas reales de no-indexación (las que sí importan)

5. Causas de calidad (las que nadie quiere oír)

6. Cómo diagnosticar el origen real del problema

7. Errores comunes al intentar forzar la indexación

8. Preguntas frecuentes

¿Cuánto tarda Google en indexar una URL nueva?

¿Qué significa exactamente «Rastreada: actualmente sin indexar»?

¿Y «Detectada: actualmente sin indexar»?

¿Pedir indexación manual desde Search Console acelera el proceso?

¿Por qué Google indexa URLs basura de otros sitios y no las mías?

¿El contenido generado con IA se indexa peor?

¿Cuántas URLs en «sin indexar» son normales en un sitio sano?

¿Eliminar URLs de baja calidad mejora la indexación de las demás?

Fuentes

¿Una parte considerable de tu sitio aparece como «sin indexar» en Search Console?

Artículos relacionados

SEO para inmobiliarias en la Costa del Sol: cómo captar al comprador internacional y de lujo

GEO (Generative Engine Optimization): cómo conseguir que la IA cite tu marca

Crawl budget explicado sin humo

¿Quieres aplicar estas estrategias a tu negocio?

Indexación: por qué Google decide no indexar tu contenido

1. Indexación no es lo mismo que rastreo (y aquí es donde casi todos se equivocan)

2. Los dos estados de Search Console que tienes que aprender a distinguir

2.1 Detectada: actualmente sin indexar

2.2 Rastreada: actualmente sin indexar

3. Lo que el leak de 2024 mostró sobre el índice de Google

3.1 El índice no es uno, son varios niveles

3.2 Qué señales sugiere el leak que entran en juego

4. Causas técnicas reales de no-indexación (las que sí importan)

5. Causas de calidad (las que nadie quiere oír)

6. Cómo diagnosticar el origen real del problema

7. Errores comunes al intentar forzar la indexación

8. Preguntas frecuentes

¿Cuánto tarda Google en indexar una URL nueva?

¿Qué significa exactamente «Rastreada: actualmente sin indexar»?

¿Y «Detectada: actualmente sin indexar»?

¿Pedir indexación manual desde Search Console acelera el proceso?

¿Por qué Google indexa URLs basura de otros sitios y no las mías?

¿El contenido generado con IA se indexa peor?

¿Cuántas URLs en «sin indexar» son normales en un sitio sano?

¿Eliminar URLs de baja calidad mejora la indexación de las demás?

Fuentes

¿Una parte considerable de tu sitio aparece como «sin indexar» en Search Console?

Artículos relacionados

SEO para inmobiliarias en la Costa del Sol: cómo captar al comprador internacional y de lujo

GEO (Generative Engine Optimization): cómo conseguir que la IA cite tu marca

Crawl budget explicado sin humo

¿Quieres aplicar estas estrategias a tu negocio?