El mito de la ventana infinita

Objetivo de maestría

refutarás con evidencia la tesis "una ventana más grande lo resuelve". Sabrás por qué la degradación con la longitud es estructural —attention budget, coste n²— y qué distancia hay entre la ventana anunciada y la longitud efectiva de un modelo.

1.1El run que se murió con sitio de sobra

Magallanes —el agente de investigación que vas a diagnosticar y reparar todo el curso— acaba de bordar su demo. Le encargas un informe corto, le das tres documentos, y devuelve un texto impecable con sus secciones citadas. Lo enseñas en la daily. Aplausos.

Magallanes recibe un encargo ("investiga X y escribe un informe con N secciones") y en un loop multi-paso busca, lee documentos y sintetiza. Tiene tres tools y un esqueleto deliberadamente ingenuo:

python

1# magallanes.py — deep-research agent (baseline N0, sin gestión de contexto)
2def buscar(query: str) -> list[dict]: ...      # top-k {doc_id, titulo, snippet}
3def leer(doc_id: str) -> str: ...              # documento COMPLETO (grande)
4def escribir_seccion(titulo: str, contenido: str) -> str: ...
5# (el grafo completo de Magallanes se monta en el apéndice A)

Entonces lo lanzas sobre un encargo real: 12 subtemas, 30 documentos. Al turno 25 (cada vuelta del loop de Magallanes: una decisión más una tool), contradice su propia sección 2 y cita un documento que no existe.

Aquí está el detalle que desarma a medio equipo. El proveedor anuncia una ventana de 200K tokens. Tu run usó 80K. "Cabe de sobra" —y aun así se murió.

Tu compañero propone lo evidente para él: "migramos al modelo con ventana de 1M y listo". Esta lección existe para que sepas, con evidencia, por qué esa apuesta pierde dinero.

1.2Qué vas a poder hacer

Al terminar sabrás:

Explicar por qué un modelo degrada al crecer la longitud aunque el contenido "quepa" en la ventana.
Distinguir la ventana anunciada de la longitud efectiva, y citar la evidencia que mide esa brecha.
Matizar un claim comercial de vendor ("ventana de 1M") con el dato técnico correcto.

Necesitas saber antes:

Qué hace la self-attention con n tokens a grandes rasgos (relaciona pares de tokens).
Qué es un test needle-in-a-haystack: esconder un dato (la aguja) en un texto largo (el pajar) y preguntar por él.

Esta lección no toca código de gestión todavía. Construye el porqué. Sin él, gestionar el contexto parece un parche; con él, es ingeniería con palancas.

1.3Recupera

Antes de seguir, responde mentalmente. No mires lo de abajo hasta tener una respuesta.

La self-attention relaciona cada token con los demás. Si duplicas el número de tokens, ¿cuánto crece el número de pares a relacionar?
Un modelo pasa un needle-in-a-haystack casi perfecto a 128K tokens. ¿Demuestra eso que "rinde bien" a 128K en tareas reales?

La respuesta a la 1: el número de pares crece con el cuadrado del número de tokens. Doblar n cuadruplica los pares. La respuesta a la 2: no. Recuperar un dato literal es la tarea más fácil; rendir en razonamiento sobre ese contexto es otra cosa. Veremos benchmarks donde el needle es casi perfecto y el rendimiento real se desploma igual.

1.4El concepto: por qué la longitud degrada

Empecemos por el nombre del fenómeno, luego por la evidencia, y al final por la causa estructural.

Context rot: el término y su evidencia

El context rot —"podredumbre del contexto"— es un fenómeno con nombre. La capacidad del modelo de recuperar y usar información disminuye al crecer el número de tokens (Anthropic, "Effective context engineering for AI agents", 29 sep 2025).

La analogía útil: el contexto no es un disco duro donde guardas y todo sigue intacto. Es más bien una mesa de trabajo que se satura. Límite de la analogía: en una mesa física los papeles no se corrompen entre sí; en el contexto, contenido irrelevante sí interfiere con el relevante. Lo veremos.

La evidencia empírica más amplia es el reporte técnico de Chroma "Context Rot" (Kelly Hong, Anton Troynikov, Jeff Huber; Chroma, 14 jul 2025). Testaron 18 modelos frontier. Su conclusión, verbatim:

"LLMs do not maintain consistent performance across input lengths."

No es que un modelo malo falle. Es que ningún modelo mantiene rendimiento uniforme al crecer la longitud, ni siquiera en tareas tan simples como recuperación no léxica o replicar texto (Chroma, jul 2025).

Una nota de honestidad: las tablas numéricas exactas por modelo y longitud de Chroma no son extraíbles de la página pública. Por eso aquí no vas a ver cifras tipo "cae un 30%" atribuidas a Chroma —circulan, no tienen fuente sólida—. Lo que sí está confirmado es el patrón: degradación, y no uniforme.

El contraejemplo que ataca la intuición fácil

Aquí mucha gente concluye, demasiado rápido, "el problema es demasiada información". Es una conclusión natural y es incompleta.

Chroma encontró un resultado contraintuitivo: barajar el haystack —romper la coherencia local del texto— MEJORA consistentemente el rendimiento (Chroma, jul 2025). Si el problema fuera la cantidad bruta de tokens, barajar no debería ayudar: hay los mismos tokens.

Lo que sí compone la degradación son los distractores: un solo distractor reduce el rendimiento frente al baseline, y cuatro lo empeoran más (Chroma, jul 2025). La degradación tiene que ver con la estructura y el contenido del contexto, no solo con su tamaño. Guarda este matiz: vuelve en cada nivel del curso.

Ventana anunciada vs longitud efectiva

Llega el término que desmonta el mito. La longitud efectiva es la longitud máxima a la que un modelo mantiene un rendimiento ≥50% de su baseline de contexto corto —el criterio operativo que usan benchmarks como RULER y NoLiMa—. Casi siempre queda muy por debajo de la ventana que el proveedor anuncia.

La analogía: la ventana anunciada es como la velocidad máxima impresa en el velocímetro de un coche. La longitud efectiva es la velocidad a la que de verdad puedes conducir con seguridad. Límite de la analogía: el velocímetro no miente sobre lo que la ventana acepta; el modelo sí acepta los 200K, lo que cae es la calidad del uso.

Tres benchmarks miden esa brecha:

RULER (arXiv:2404.06654, COLM 2024) probó 13 tareas de 4K a 128K. De los modelos que claman soportar ≥32K, "only half of them can maintain satisfactory performance at the length of 32K". GPT-4, con 128K anunciados, tiene una longitud efectiva de 64K —la mitad— pese a pasar el needle-in-a-haystack casi perfecto.
NoLiMa (arXiv:2502.05167, ICML 2025) probó lo mismo sin solapamiento léxico entre la pregunta y la evidencia —el modelo no puede hacer "match" de palabras—. De los 12 modelos, 10 rinden a 32K la mitad o menos de su score base (NoLiMa, ICML 2025). GPT-4o cae de 99,3% a 69,7%.
arXiv:2510.05381 (Findings EMNLP 2025) midió degradación del 13,9% al 85% con la longitud incluso con retrieval perfecto —es decir, aun cuando el dato correcto está garantizado en el contexto. Insertar 25.000 espacios en blanco también degrada: el problema no es solo encontrar el dato.

Lee otra vez la línea de NoLiMa. Sin trampa léxica, 10 de 12 modelos pierden la mitad de su capacidad a 32K. Y RULER lo dice con un modelo concreto: 128K en la caja, 64K de verdad.

La causa estructural: el attention budget

Esta sección nombra el porqué. Es la parte más densa de la lección. La dificultad aquí es conectar una propiedad de la arquitectura (cuántos pares calcula la atención) con un comportamiento emergente (por qué el modelo usa peor el contexto largo). Lee primero la analogía del presupuesto; después vuelve a la cita de Anthropic para anclarla. Una sola idea —cada token tiene un coste— con su raíz en la arquitectura.

Anthropic introduce el attention budget —"presupuesto de atención"—: cada token que entra al contexto consume parte de un presupuesto finito de atención del modelo. En sus palabras: "Every new token introduced depletes this budget" (Anthropic, 29 sep 2025).

La raíz es arquitectónica. La self-attention establece "n² pairwise relationships for n tokens" (Anthropic, 29 sep 2025): para n tokens hay del orden de n² pares de relaciones que el modelo debe gestionar. Esto aplica a la arquitectura transformer estándar con atención densa —la de los modelos de esta lección—. Por eso doblar el contexto no dobla el problema —lo cuadruplica—. La atención sobre cada token se diluye.

La analogía: el attention budget es como un presupuesto monetario. Cada token "cobra una renta"; cuantos más metes, menos atención queda para cada uno. Límite de la analogía —y es el matiz clave—: el dinero no interfiere entre sí, una moneda no estropea a otra. Los tokens sí: un distractor no solo "ocupa", además degrada el uso del resto. El contraejemplo del shuffle de Chroma vivía justo aquí.

Y por eso una ventana más grande no es la solución. Anthropic lo dice sin rodeos:

"context windows of all sizes will be subject to context pollution and information relevance concerns" (Anthropic, 29 sep 2025).

Una ventana de 1M tiene exactamente el mismo problema, a otra escala. Más sitio no compra más atención por token.

1.5Míralo: leer una curva de sweep

Vamos a leer juntos la curva que vas a construir tú mismo en L4. Es una figura conceptual: misma tarea para Magallanes, semántica fija, longitud creciente.

Lee primero el eje y la forma. Después analizamos qué dice.

text

1calidad del informe (cobertura de subtemas, 0–1)
21.0 ┤ ●───●
3    │        ╲
40.8 ┤          ●
5    │            ╲
60.6 ┤              ╲
7    │                ●
80.4 ┤                  ╲────●
9    │
100.2 ┤
11    └──┬────┬────┬────┬────┬──
12       0    10   25   40   50   ← documentos irrelevantes inyectados
13                  ▲
14            punto de inflexión

← eje X: nº de documentos irrelevantes inyectados (misma tarea, mismo encargo)

El eje vertical es la calidad del informe de Magallanes —cobertura de subtemas, de 0 a 1—. El horizontal es la longitud: cuántos documentos irrelevantes inyectamos en el corpus, manteniendo el encargo idéntico. La calidad arranca alta, aguanta un tramo, y a partir de cierto punto cae.

Ese punto donde la curva deja de ser plana y se desploma es el punto de inflexión: la longitud a partir de la cual tu agente, con tus tools, pierde calidad.

Ahora la pregunta de auto-explicación. Respóndela tú antes de leer: ¿por qué la curva no se mantiene plana hasta "llenarse" la ventana, y solo entonces cae en picado?

Porque la degradación no es un muro al borde de la ventana. Es gradual y estructural: empieza mucho antes de llenar la ventana, en cuanto el attention budget se reparte entre más tokens (sección 1.4). Si fuera un muro, una ventana mayor lo movería más lejos y resolvería el problema. No lo es: por eso no lo resuelve. Magallanes se murió a 80K de 200K precisamente porque su punto de inflexión llegó mucho antes del borde.

1.6Hazlo tú

Ejercicio 1 — andamiaje parcial

Tu compañero te manda este claim de un vendor:

"Nuestro modelo tiene ventana de 1M de tokens. Pásale todos tus documentos sin preocuparte por el tamaño."

Tienes tres datos a mano: RULER (GPT-4 efectivo 64K de 128K), NoLiMa (10 de 12 modelos pierden la mitad a 32K), arXiv:2510.05381 (degrada con retrieval perfecto).

Completa el matiz técnico. Te doy las dos primeras frases; escribe la tercera:

"Una ventana de 1M dice cuánto cabe, no cuánto rinde."
"Los benchmarks muestran que la longitud efectiva suele quedar muy por debajo de la anunciada: RULER midió 64K reales de 128K anunciados."
__________ (pista: usa 2510.05381 para cerrar la puerta a "pero si el dato está ahí, lo encontrará").

Ejercicio 2 — autónomo

Ahora sin andamiaje. Otro vendor te dice:

"Olvídate del RAG: con 1M de ventana, mete el corpus entero en el prompt."

Sin mirar la solución, escribe en 3 frases el matiz técnico correcto. Apoya cada frase en un dato del corpus de esta lección.

Antes de seguir, una pregunta de interrogación elaborativa. Respóndela tú primero: ¿por qué el resultado del shuffle de Chroma debilita el argumento del vendor más que cualquier cifra de degradación?

Ver razonamiento

Porque ataca su premisa, no su conclusión. El vendor asume que "más contexto = más información útil". El shuffle muestra que, con los mismos tokens, reordenarlos cambia el rendimiento. Entonces el cuello de botella no es la cantidad que cabe —es cómo el modelo atiende lo que hay—. Meter el corpus entero no es neutro: añade distractores que componen la degradación.

1.7Comprueba

Sin pistas. Aquí tienes cuatro afirmaciones sobre contextos largos. Marca cuáles soporta la evidencia del corpus y nombra la fuente; para las falsas, di qué las desmiente.

Afirmación A. "Si un modelo pasa el needle-in-a-haystack a 128K, rinde bien en tareas reales a 128K."

Afirmación B. "Sin solapamiento léxico entre pregunta y evidencia, la mayoría de modelos pierde al menos la mitad de su capacidad a 32K."

Afirmación C. "La degradación de contexto largo se debe únicamente a que el modelo no encuentra el dato relevante (fallo de retrieval)."

Afirmación D. "Migrar a un modelo con ventana de 1M elimina el problema de la degradación por longitud."

Ver la respuesta razonada

A es falsa. RULER lo desmiente: GPT-4 pasa el needle casi perfecto y aun así su longitud efectiva es 64K de 128K (RULER, COLM 2024). El needle es el suelo de dificultad, no el techo.

B es verdadera. Es NoLiMa: de 12 modelos, 10 rinden a 32K la mitad o menos de su base sin match léxico (NoLiMa, ICML 2025).

C es falsa. arXiv:2510.05381 mide degradación del 13,9% al 85% con retrieval perfecto, e insertar espacios en blanco también degrada (Findings EMNLP 2025). El problema excede al retrieval.

D es falsa. Anthropic: "context windows of all sizes will be subject to context pollution and information relevance concerns" (Anthropic, 29 sep 2025). La causa es estructural (attention budget, n²); cambiar de tamaño no la elimina.

Feedback formativo:

Si acertaste las cuatro con su fuente: dominas el núcleo del nivel —ventana anunciada ≠ longitud efectiva, y la causa es estructural—. Reutilizarás este criterio en cada lección de N0; en L4 lo conviertes en una curva medida de tu agente.
Si fallaste la A: confundiste recuperar un dato con razonar sobre el contexto. La diferencia clave: el needle mide lo primero, las tareas reales lo segundo. Releer §1.3 y la línea de RULER en §1.4 cierra la brecha.
Si marcaste la C como verdadera: es el error más común aquí. "No encuentra el dato" suena a causa completa, pero 2510.05381 degrada con el dato garantizado. El siguiente paso: vuelve al §1.4 y verbaliza por qué los espacios en blanco también degradan.

1.8Conecta

Vuelve al run que se murió a 80K de 200K.

Si la degradación fuera "se acabó el sitio", una ventana más grande sería la cura. No lo es: es estructural —attention budget, coste n²—. Por eso gestionar el contexto no es un parche, es ingeniería con palancas concretas. El curso entero las desarrolla:

escribir fuera del contexto · seleccionar lo que entra · comprimir lo que se queda · aislar lo que conviene separar (marco de Lance Martin / LangChain, 23 jun 2025).

Esa es la respuesta al debate de tu equipo. No "modelo de 1M vs gestionar el contexto" —la ventana de 1M tiene el mismo problema a otra escala—. La pregunta correcta es qué palanca y en qué partida.

Y esto es lo que cambia al cerrar el nivel: hoy tienes la anécdota del run muerto. Al final de N0 tendrás su curva —la del §1.5, pero medida sobre tu Magallanes, con tu punto de inflexión—. Lo que ningún benchmark público te da: no mide modelos, mide tu agente con tus tools.

El instrumento para construirla se llama context sweep y lo montarás en L4. Antes, en L2, pondrás nombre a las cuatro formas en que Magallanes se muere. Su primer fallo —contradecir su sección 2, citar un doc inexistente— ya tiene diagnóstico esperándote.

→ Empieza tu diagnóstico de Magallanes

1.9Reflexiona

Tómate dos minutos. Estas preguntas consolidan más que releer.

Con tus palabras: ¿por qué doblar el contexto empeora el problema más que proporcionalmente?
¿Qué dato usarías para refutar a alguien que dice "el needle a 128K demuestra que rinde a 128K"?
¿Qué sigue sin estar claro? Anótalo. Si es "¿a partir de cuántos tokens degrada mi agente?", es la pregunta correcta —la responde L4 con tu propia curva—.

Referencia rápida

Context rot: la capacidad de usar el contexto cae al crecer los tokens (Anthropic, 29 sep 2025). Evidencia amplia: 18 modelos, rendimiento no uniforme (Chroma, jul 2025; sin cifras finas públicas).
Longitud efectiva ≠ ventana anunciada: RULER (GPT-4 efectivo 64K de 128K; solo la mitad aguanta a 32K, COLM 2024); NoLiMa (10 de 12 modelos pierden ≥mitad a 32K sin match léxico, ICML 2025); arXiv:2510.05381 (13,9–85% de degradación con retrieval perfecto, EMNLP 2025).
Causa estructural: attention budget; cada token agota presupuesto; n² pares para n tokens (Anthropic, 29 sep 2025).
Contraejemplo: barajar el haystack MEJORA el rendimiento (Chroma, jul 2025) → la degradación no es "demasiada información" a secas; son los distractores.
El mito: una ventana mayor no resuelve la degradación —"context windows of all sizes…" (Anthropic, 29 sep 2025)—.
No usar nunca: cifras de degradación de Chroma de fuentes secundarias; "la degradación se concentra en los primeros 7K tokens" (no confirmado).