llms.txt es un estándar emergente propuesto en 2024 por Jeremy Howard (Answer.AI) que define un fichero de texto en la raíz del dominio, similar en filosofía a robots.txt o sitemap.xml, destinado a ofrecer a los modelos de lenguaje y a los agentes de IA una vista curada del contenido más relevante del sitio en formato Markdown.
A diferencia de robots.txt, que controla el acceso de crawlers, llms.txt no restringe nada: ofrece una guía de navegación pensada para que los modelos de lenguaje, con sus límites de contexto, puedan localizar los recursos esenciales del sitio sin tener que crawlear toda la estructura. Su adopción en 2026 es desigual: los sitios técnicos (docs, librerías open source, agencias técnicas) lo implementan; el mainstream lo ignora.
Un llms.txt sigue una estructura libre pero convencional. La primera sección es un H1 con el nombre del sitio o producto y una blockquote con la descripción concisa. Luego, listas con enlaces directos a las páginas críticas: documentación, glosario, productos, guías principales. Cada enlace puede acompañarse de una descripción corta entre paréntesis.
Existen dos variantes prácticas. El `llms.txt` ligero es un índice de las URLs y sus descripciones, pensado para que el modelo decida qué fetchear. El `llms-full.txt` incluye el contenido íntegro en Markdown plano de las páginas referenciadas, listo para ingestión directa sin más crawls.
Los motores y agentes que respetan el estándar (no es obligatorio para ninguno todavía) priorizan los enlaces y los pesos declarados en este fichero cuando construyen su representación del sitio. Algunos crawlers de IA, como los de Mistral o ciertos motores de búsqueda generativa emergentes, ya lo consumen activamente; OpenAI y Anthropic no lo han confirmado oficialmente como input prioritario.
Un SaaS B2B con documentación extensa crea `/llms.txt` con: H1 del producto, blockquote definicional de una frase, sección 'Documentación esencial' con 8 enlaces a las páginas más importantes, sección 'API Reference' con el enlace al OpenAPI, sección 'Glosario' enlazando los 40 términos clave. En paralelo expone `/llms-full.txt` con el contenido completo en Markdown. Tras 4 meses, las menciones del producto en Perplexity y en agentes de Mistral aumentan, y el equipo detecta queries de soporte donde Claude y ChatGPT (con web habilitado) reproducen literalmente fragmentos del Markdown del llms-full.
Confundir llms.txt con robots.txt. Son ortogonales: robots.txt controla acceso; llms.txt ofrece curaduría.
Listar todas las URLs del sitio. El valor del estándar es la curación: 20-100 enlaces críticos, no 5.000.
Generarlo a partir del sitemap sin curaduría. Un sitemap es exhaustivo; un llms.txt es prioritizado.
Olvidar mantenerlo. Si la estructura del sitio cambia y el llms.txt queda obsoleto, perjudica más que ayuda.
No ha confirmado oficialmente que lo use. En 2026 sigue siendo un estándar emergente, propuesto por la comunidad y adoptado por algunos motores generativos, no un protocolo formal.
Recomendable. El ligero ayuda a la fase de retrieval; el completo permite a agentes ingestar el contenido sin crawls adicionales.
No. Son complementarios. sitemap.xml es el contrato con buscadores tradicionales; llms.txt es la guía para modelos y agentes.
El GEO o Generative Engine Optimization es la disciplina de optimizar contenido y entidades para aparecer como fuente citada en las respuestas generadas por motores de IA como ChatGPT Search, Perplexity, Google AI Overviews, Gemini y Claude, frente al SEO clásico que optimiza para los rankings de búsqueda tradicional.
Técnica avanzadaSchema.org es el vocabulario consensuado por Google, Microsoft, Yahoo y Yandex para etiquetar entidades y relaciones en una página web; JSON-LD es el formato sintáctico recomendado por Google para implementarlo, un bloque de JSON inyectado en el `<head>` que describe el contenido en un lenguaje que los motores procesan sin ambigüedad.
Concepto GEOEl RAG o Retrieval-Augmented Generation es la arquitectura que combina un sistema de recuperación de documentos (búsqueda semántica sobre un corpus) con un modelo de lenguaje generativo, permitiendo al LLM responder usando información que no estaba en su training data y citando fuentes verificables; es el corazón de Perplexity, ChatGPT Search, Google AI Overviews y la mayoría de buscadores generativos.
Concepto GEOEl LLMO o Large Language Model Optimization es el conjunto de prácticas dirigidas a maximizar la presencia de una marca, persona o sitio dentro del conocimiento que los modelos de lenguaje (ChatGPT, Claude, Gemini, Perplexity) incorporan a través de su corpus de entrenamiento y de sus pipelines de retrieval.
En Autoridad Digital traducimos llms.txt en acciones concretas dentro del Método A.U.T.O.R.I.D.A.D. Solicita un diagnóstico y te explicamos cómo aplicaría en tu caso.