Diagnóstico completo
producir el informe de diagnóstico del checkpoint C0 sobre Magallanes — curva de calidad vs longitud, modos de fallo clasificados con trazas y presupuesto de contexto desglosado, todo reproducible. Importa porque convierte "a veces falla en runs largos" en una decisión de ingeniería defendible con datos.
5.1El problema: una decisión de sprint que cuesta dinero
Tu equipo está dividido en la daily. Magallanes, vuestro deep-research agent, se degrada en encargos largos. Hay dos bandos.
Un bando dice: "el proveedor anuncia una ventana de 1M de tokens; migramos y se acabó". El otro dice: "no, esto es estructural; necesitamos dos sprints de gestión de contexto". Ambos suenan razonables. Ambos cuestan: uno, una factura de tokens mayor; el otro, dos semanas de equipo.
Esa discusión no se resuelve con opiniones más fuertes. Se resuelve con un artefacto: un informe que mida dónde, cuánto y de qué modo falla Magallanes. Si la curva sigue cayendo a 1M, migrar no salva nada. Si los fallos son poisoning y distraction, ninguna ventana los cura — son del propio contenido acumulado.
Esta lección cierra N0 produciendo ese informe. No vas a aprender un concepto nuevo grande. Vas a integrar las cuatro piezas que ya construiste —el mito de la ventana, los cuatro modos, el presupuesto y el sweep— en un solo documento que decide el debate.
Necesitas saber antes (de este mismo nivel):
- La curva calidad-vs-longitud y el sweep controlado, de N0·L4.
- Los cuatro modos de fallo (poisoning, distraction, confusion, clash) con su evidencia de traza, de N0·L2.
- El presupuesto de contexto y el token counting por partida, de N0·L3.
- Por qué la degradación con la longitud es estructural, de N0·L1.
Si no montaste el harness, repásalo en el apéndice A antes de seguir.
5.2Qué vas a poder hacer
Al terminar esta lección podrás:
- Estructurar un informe de diagnóstico como artefacto de ingeniería: agente, método del sweep, curva, modos con trazas, presupuesto y conclusión accionable.
- Aplicar la rúbrica C0 a tu propio informe, dimensión a dimensión, con honestidad.
- Diagnosticar las cuatro fallas típicas de un mal informe: sweep no controlado, clasificar sin traza, presupuesto sin números y conclusión que no se sigue de los datos.
- Aprobar el checkpoint C0 entregando el informe sobre Magallanes que decide el debate de tu equipo.
5.3Recupera (interleave del nivel)
Antes de montar el informe, recupera las cuatro piezas que lo sostienen. Responde mentalmente antes de leer la pista; recuperar de memoria fija mejor que releer. Las cuatro preguntas mezclan los cuatro ejes del nivel a propósito: el informe los integra, no los trata por separado.
Pregunta 1 (interpretar la curva). El sweep de Magallanes da calidad 0,82 a 10 documentos irrelevantes, 0,80 a 25 y 0,54 a 50. ¿Dónde está el punto de inflexión y qué afirmas sobre la zona plana inicial?
El punto de inflexión está entre 25 y 50: ahí la calidad se desploma. La zona 10→25 casi plana muestra que la degradación no empieza al "llenarse" la ventana, sino al cruzar un umbral — el patrón no-uniforme que documenta Chroma sobre 18 modelos (corpus A.1). "Cabe" no implica "rinde".
Pregunta 2 (clasificar el fallo). En el turno 22, Magallanes vuelve a llamar buscar con una query que ya ejecutó en el turno 9, e incorpora menos síntesis nueva. ¿Qué modo es y con qué evidencia de traza?
Context distraction: el contexto largo hace que el modelo repita su historial en vez de sintetizar (corpus A.3). La evidencia es la línea de traza con la
buscar(query)duplicada. El patrón es el que documenta el Gemini 2.5 report: pasados ~100k tokens, el agente favorece repetir acciones de su historial (vía Breunig).
Pregunta 3 (leer el presupuesto). El presupuesto de Magallanes pasa de 12K tokens en el turno 5 a 85K en el turno 20, con system prompt y tools fijos. ¿Qué partida explica la pendiente?
Los tool results. Cada
leer(doc_id)devuelve el documento completo y el loop ReAct append-only lo acumula para siempre (corpus A.6). System prompt y tools son coste fijo; el historial crece, pero los documentos enteros son los que disparan la pendiente.
Pregunta 4 (la conclusión defendible). ¿Por qué la conclusión "migrar a una ventana de 1M no lo cura" es defensible sin haber medido a 1M?
Porque se apoya en el tipo de modo y en el attention budget —la atención del modelo se reparte entre más tokens según crece el contexto, no es ilimitada—, no en la longitud medida. Poisoning, distraction y clash nacen del contenido acumulado; una ventana mayor cabe más de ese tóxico, no menos (corpus A.4, A.5). Además, la ventana anunciada y la longitud efectiva —donde el modelo aún rinde— son distintas: el número del proveedor no es la zona útil. Anthropic lo afirma sin medir a 1M: "context windows of all sizes will be subject to context pollution and information relevance concerns" (29 sep 2025, corpus A.4).
Si fallaste alguna, vuelve a la lección indicada antes de seguir. Es común confundir distraction con confusion: la clave es historial-propio (distraction) frente a contenido-ajeno superfluo (confusion).
5.4El concepto: el informe de diagnóstico como artefacto de ingeniería
Esta sección integra los seis bloques del informe — es la parte más densa de la lección. Lee primero los seis nombres; después vuelve y lee el porqué de cada uno.
Ya tienes las tres mediciones. La pregunta de esta lección es distinta: ¿qué convierte tres mediciones sueltas en un documento que decide una discusión?
Un informe de diagnóstico es un artefacto que reconstruye, de forma reproducible, dónde y de qué modo falla un agente. Termina en una recomendación que se sigue de los datos. La analogía: es el parte de un mecánico. No dice "el coche va raro", sino "pierde potencia por encima de 4.000 rpm, la sonda lee fuera de rango en la traza, y el arreglo cuesta X". La analogía falla en un punto: el mecánico mide una pieza física estable. Tu agente es estocástico, así que el informe debe ser re-ejecutable para distinguir señal de ruido.
Un informe de diagnóstico tiene seis bloques, en orden. Los seis salen de lo que ya hiciste; aquí los encadenas.
1. Contexto del agente. Qué es Magallanes, sus tres tools (buscar, leer, escribir_seccion), el encargo fijado y la versión medida (el baseline ReAct append-only de N0). Sin esto, nadie reproduce ni interpreta el resto.
2. Método del sweep. Qué variaste y qué mantuviste fijo: misma tarea, semántica constante, longitud creciente por inyección de documentos irrelevantes. Las longitudes (≥4 puntos), el seed y el comando exacto. Este bloque es lo que hace el informe creíble — distingue medir contexto de medir dificultad.
3. La curva. Calidad medida por el harness frente a longitud, con el punto de inflexión señalado. No impresiones: números del grader (cobertura de subtemas, citas a doc_id reales, llm-rubric).
4. Modos con trazas. Cada fallo observado clasificado en la taxonomía —poisoning, distraction, confusion, clash— con la línea concreta de traza que lo delata. Un modo sin su traza es una etiqueta, no un diagnóstico.
5. Presupuesto. El desglose por partida (system prompt / tools / historial / tool results) con token counting real, y qué partida domina el crecimiento por turno.
6. Conclusión accionable. La recomendación que se sigue de 1–5, dirigida al debate concreto. Aquí respondes "ventana de 1M o dos sprints" con la evidencia delante.
Por qué el orden no es decorativo
Cada bloque arma al siguiente. El método justifica la curva; la curva localiza cuándo mirar las trazas; las trazas nombran qué enfermedad; el presupuesto explica de dónde viene el tóxico; la conclusión hereda la fuerza de los cinco. Saltarte uno deja un agujero argumental que tu equipo verá enseguida.
Cuatro formas de que el informe no convenza
Antes de la rúbrica, normaliza el error: estos cuatro fallos son los más comunes, y los cuatro tienen arreglo concreto.
- Sweep no controlado. Cambiaste la tarea al cambiar la longitud (encargos distintos por punto, o sin seed). Entonces mides dificultad, no contexto — y la curva no significa nada. Arreglo: misma semántica, mismo seed, solo varía el relleno irrelevante.
- Clasificar sin traza. Escribes "hay distraction" sin la línea que lo prueba. Es una corazonada con vocabulario técnico. Arreglo: pega la línea exacta (la
buscarduplicada, el dato que el documento desmiente) junto a cada etiqueta. - Presupuesto sin números. "Los documentos ocupan mucho" no es un presupuesto. Arreglo: token counting real por partida (
count_tokensde la API, corpus F.6) y la pendiente por turno. - Conclusión que no se sigue. Recomiendas "migrar a 1M" cuando tu propia curva cae a 50 documentos. Arreglo: la conclusión cita la curva, los modos y el presupuesto; si la evidencia no la soporta, cámbiala.
Contraejemplo — qué NO es un informe de diagnóstico. Un párrafo que dice "Magallanes funciona bien en demos pero se vuelve poco fiable en tareas largas, probablemente por la ventana de contexto". Suena correcto. No tiene curva, ni traza, ni un solo número, ni un comando que lo reproduzca. Es la anécdota de N0·L1 con otras palabras — exactamente lo que este nivel existe para superar.
5.5Míralo: el esqueleto comentado de un informe
Vas a leer el esqueleto de un informe sobre una variante de Magallanes distinta de la tuya: misma estructura, otra config (snippets en vez de documentos completos en leer). Léelo para calibrar el listón, no para copiarlo.
Este informe es bueno en tres dimensiones y flojo en una. Te digo cuál y por qué, para que veas dónde está la frontera del aprobado.
1# Diagnóstico — Magallanes (variante "snippets"), baseline N0
2
3## 1. Agente
4Deep-research agent en LangGraph. Tools: buscar / leer / escribir_seccion.
5Variante: leer() devuelve snippets de 800 tokens, no el documento completo.
6Encargo fijo: "Investiga <tema> y escribe un informe de 6 secciones".
7Versión: baseline ReAct append-only, sin gestión de historial. Seed=42.
8
9## 2. Método del sweep
10Misma tarea y semántica. Variamos SOLO el relleno: 0 / 10 / 25 / 50
11documentos irrelevantes inyectados en el corpus (4 puntos). Mismo seed,
12mismo encargo. Comando: `python sweep.py --variante snippets --seed 42`.
13
14## 3. Curva (harness)
15| docs irrelevantes | calidad |
16|---|---|
17| 0 | 0,86 |
18| 10 | 0,84 |
19| 25 | 0,71 |
20| 50 | 0,49 |
21Punto de inflexión: entre 25 y 50. Métrica: cobertura de subtemas +
22citas a doc_id reales + llm-rubric de coherencia (apéndice A).
23
24## 4. Modos observados (con traza)
25- DISTRACTION (turno 18): traza repite `buscar("logística inversa")`,
26 ya ejecutada en turno 7. Síntesis nueva cae.
27- CLASH (sección 4 vs sección 2): el informe afirma "plazo 30 días" y
28 luego "plazo 15 días"; traza muestra dos `leer` de docs distintos sin
29 reconciliar.
30
31## 5. Presupuesto
32Medido con count_tokens por turno (token counting real).
33- System prompt: 1,1K (fijo)
34- Tools (3 definiciones): 0,4K (fijo)
35- Historial (mensajes del agente): 2,5K (turno 5) -> 12K (turno 20)
36- Tool results (documentos leídos con leer()): 3,5K (turno 5) -> 26K (turno 20)
37Domina el crecimiento: los tool results acumulados (append-only).
38
39## 6. Conclusión
40La curva cae 43% entre 25 y 50 docs; los modos son distraction y clash,
41ambos de contenido acumulado, no de tamaño de ventana. Una ventana de 1M
42NO los cura: el tóxico ya está dentro. Recomendación: invertir en gestión
43de historial (compaction) antes que migrar de modelo. Re-ejecutable con
44el comando de §2.Dónde está flojo: la dimensión 4 (diagnóstico de modos). El informe clasifica dos modos con traza —bien— pero falla en dos cosas. Primera: solo nombra 2 de los 4 modos (distraction y clash) sin declarar qué buscó y no encontró —no dice si descartó poisoning y confusion o si ni los miró—. Segunda: no incluye el contraejemplo (descartar un fallo determinista de tool que NO es de contexto, p.ej. un leer que devuelve error de I/O). El diagnóstico es correcto pero incompleto. Para un aprobado holgado, cada modo presente debe tener su traza y el informe debe declarar qué modos buscó y no encontró.
Las otras tres dimensiones están sólidas: el sweep es controlado (§2 fija semántica y seed), la curva tiene métricas y punto de inflexión (§3), el presupuesto tiene números reales y nombra qué domina (§5). La conclusión (§6) se sigue de los datos: no recomienda migrar porque la curva y los modos no lo justifican.
Self-explanation — pregúntate y responde antes de seguir: ¿por qué la conclusión de §6 puede afirmar "1M no lo cura" sin haber medido a 1M?
Porque no se apoya en la longitud, sino en el tipo de modo. Distraction y clash nacen del contenido ya acumulado (historial repetido, datos contradictorios dentro del informe). Una ventana mayor cabe más de ese mismo tóxico; no lo elimina. La conclusión razona sobre la causa, no extrapola la curva — por eso es defendible (corpus A.3, A.4).
5.6Hazlo tú: el checkpoint C0
Esta práctica es el checkpoint C0. No es calentamiento: es la tarea auténtica que cierra el nivel y produce el baseline que N1–N4 deben batir.
Enunciado del checkpoint C0
Sobre Magallanes, monta un context sweep (misma tarea, semántica fija, longitud creciente por documentos irrelevantes inyectados — patrón LOCA/LongMemEval, corpus A.7) y produce un informe de diagnóstico reproducible con:
- (a) Curva de calidad vs longitud medida con el harness, con el punto de inflexión identificado.
- (b) Diagnóstico de modos de fallo observados (poisoning / distraction / confusion / clash) con trazas de ejemplo concretas.
- (c) Presupuesto de contexto desglosado por partida (system prompt / tools / historial / tool results) con token counting, indicando qué domina el crecimiento.
Entregable: un informe de diagnóstico —con curva, trazas y presupuesto— que se re-ejecuta con un comando. Sigue los seis bloques de §5.4 y calibra contra el esqueleto de §5.5.
Elaborative interrogation
Antes de evaluarte, responde por escrito. Escribir la respuesta antes de leerla fija mejor el razonamiento. ¿Por qué la rúbrica exige aprobar las dimensiones 1, 2 y 3, pero solo una de la 4 o la 5?
Porque 1–3 son el diagnóstico mínimo irreductible: sin sweep controlado, sin curva con métricas y sin modos clasificados con traza, no tienes diagnóstico — tienes la anécdota de L1. La lectura que propone este curso: la 4 (presupuesto) y la 5 (reproducibilidad) son las que lo elevan de diagnóstico a artefacto de ingeniería; exigir una asegura ese salto sin bloquear sobre la segunda. El gate mide que diagnosticaste de verdad, no que lo hiciste perfecto.
5.7El mastery gate: la rúbrica C0
La rúbrica es exactamente la de 03-arquitectura.md. Aprobado = ✔ en las dimensiones 1, 2 y 3 + al menos una de las dimensiones 4 o 5. Evalúa tu informe contra cada una con honestidad.
1. Sweep controlado — solo varía la longitud; semántica de la tarea fija; ≥4 puntos de longitud.
2. Curva con métricas — calidad medida por el harness (no impresiones); punto de inflexión identificado.
3. Diagnóstico de modos — cada fallo clasificado en la taxonomía con evidencia de traza concreta.
4. Presupuesto — desglose cuantificado (token counting) de qué ocupa el contexto y qué crece por turno.
5. Reproducibilidad — el sweep se re-ejecuta con un comando; resultados consistentes.
Feedback formativo por dimensión
Para cada dimensión, busca tu situación y aplica el feedback. Está escrito como te lo daría un mentor que revisa tu informe: qué hiciste bien y por qué importa, qué falta y cuál es el siguiente paso.
Dimensión 1 — Sweep controlado.
- Si tu sweep fija la semántica y varía solo el relleno en ≥4 puntos con seed: tu curva mide contexto, no dificultad, y por eso significa algo. Siguiente paso: documenta el seed y el comando en §2 del informe, para que la dimensión 5 caiga sola.
- Si cambiaste la tarea entre puntos (o usaste menos de 4): tu curva mezcla el efecto de la longitud con el de la dificultad, así que no puedes atribuir la caída al contexto. ¿Qué difiere entre tus puntos además de la longitud? Fija un único encargo y un seed, e inyecta solo documentos irrelevantes — revisa N0·L4.
Dimensión 2 — Curva con métricas.
- Si tu curva sale del grader del harness y marca el punto de inflexión: tienes números, no vibes, y has localizado dónde mirar las trazas. Siguiente paso: confirma que el punto de inflexión que señalas es el tramo de mayor caída, no el primer descenso.
- Si tu "curva" describe impresiones ("empeora bastante"): produces una afirmación que nadie puede verificar ni comparar entre versiones. Mira la diferencia entre "empeora" y "0,71 → 0,49 entre 25 y 50 docs". Corre el harness del apéndice A sobre cada punto y tabula la calidad medida.
Dimensión 3 — Diagnóstico de modos.
- Si cada modo que reportas lleva su línea de traza: tu diagnóstico es defendible — un revisor puede ver la evidencia, no fiarse de tu palabra. Siguiente paso: declara también qué modos buscaste y no encontraste, e incluye un contraejemplo (un fallo determinista de tool que NO es de contexto).
- Si etiquetaste modos sin pegar la traza: tu solución produce una corazonada con vocabulario técnico; la esperada produce una etiqueta anclada a una línea concreta. ¿Qué línea de la traza distinguiría tu "distraction" de una "confusion"? Pega esa línea junto a cada etiqueta — repasa N0·L2.
Dimensión 4 — Presupuesto.
- Si desglosaste las cuatro partidas con token counting y nombraste qué domina: conviertes "va lento y falla" en una decisión de ingeniería sobre qué recortar. Siguiente paso: añade la pendiente por turno, no solo el valor final — la pendiente es lo que predice el problema.
- Si tu presupuesto dice "ocupa mucho" sin cifras: describes una intuición, no un presupuesto, y nadie puede priorizar qué atacar. Mide con
count_tokensde la API (corpus F.6) cada partida en dos turnos distintos. ¿Cuál crece y cuál es fijo? Repasa N0·L3.
Dimensión 5 — Reproducibilidad.
- Si tu sweep se re-ejecuta con un comando y da resultados consistentes: tienes un activo de ingeniería que N1 reusará para medir su mejora, no una foto irrepetible. Siguiente paso: corre el comando dos veces con el mismo seed y confirma que la curva es estable.
- Si el informe nació de pasos manuales irrepetibles: tu diagnóstico existe pero no puedes rehacerlo cuando cambies el agente en niveles posteriores. El siguiente paso es portar esos pasos a
sweep.pycon seed fijo; sin reproducibilidad, cada cambio te obliga a empezar de cero.
Si no llegas al umbral (✔ en 1, 2 y 3 + una de 4/5), no es un fracaso: es información sobre qué pieza de N0 reforzar. Vuelve a la lección que cubre esa dimensión, corrige y re-ejecuta. El gate mide tu informe, no tu aptitud.
5.8Conecta: cierras N0, abres N1
Vuelve al run muerto que abrió este nivel en N0·L1. Magallanes bordaba la demo y luego, en un encargo real, contradecía su propia sección 2 y citaba un documento inexistente. Tenías una anécdota y un proveedor anunciando 200K que no te salvaron.
Ahora la situación es otra. Ese mismo fallo ya no es una anécdota: es una curva con su punto de inflexión, unos modos clasificados con su traza, y un presupuesto que nombra qué partida lo envenena. Si tu equipo te pregunta "¿dónde y por qué falla?", abres el informe en vez de encogerte de hombros. Eso es lo que cambia entre el inicio de N0 y este punto.
Y resuelve el debate del hook. Si tu curva sigue cayendo con la longitud y tus modos son poisoning/distraction/clash —del contenido acumulado, no del tamaño—, una ventana de 1M no los cura: cabe más tóxico, no menos. La conclusión defendible no es "migra", es "gestiona el contexto". Anthropic lo dice sin rodeos: "context windows of all sizes will be subject to context pollution and information relevance concerns" cuando buscas el mejor rendimiento del agente (corpus A.4).
Eso te lleva al umbral de N1. Tu informe no es el final: es el baseline. En N1 aprenderás las cuatro palancas —write, select, compress, isolate (Lance Martin/LangChain, corpus B.2)— y aplicarás la más barata, la compaction sobre el historial. Después re-ejecutarás este mismo sweep. Si la curva se desplaza —más longitud a la misma calidad—, lo verás en números, no en fe.
Este baseline es lo que vamos a batir, palanca a palanca.
5.9Reflexiona
Tómate dos minutos. La metacognición —pensar sobre cómo aprendes— tiene efecto sostenido en el rendimiento; no te saltes esto. Esta reflexión cierra el nivel entero, no solo la lección.
- ¿Qué aprendiste en N0? Resume en una frase qué distingue un diagnóstico de una anécdota sobre por qué falla un agente.
- ¿Qué sigue sin estar claro? ¿Te costó el sweep controlado? ¿Clasificar un modo dudoso? ¿El token counting por partida? Nómbralo: ese es tu punto de repaso antes de N1.
- ¿Qué harías distinto? Si tuvieras que diagnosticar mañana un agente en producción que no es Magallanes, ¿por cuál de los seis bloques empezarías y por qué?
Referencia rápida
El informe de diagnóstico — los 6 bloques (en orden):
- Agente — qué es, sus tools, el encargo fijo, la versión medida.
- Método del sweep — qué varías, qué fijas, ≥4 longitudes, seed, comando.
- Curva — calidad del harness vs longitud, punto de inflexión.
- Modos con trazas — cada fallo clasificado + la línea de traza que lo prueba.
- Presupuesto — desglose por partida con token counting + qué domina el crecimiento.
- Conclusión accionable — la recomendación que se sigue de 1–5.
Cuatro fallos típicos: sweep no controlado · clasificar sin traza · presupuesto sin números · conclusión que no se sigue.
Rúbrica C0 (aprobado = 1+2+3 ✔ y una de 4/5):
- Sweep controlado (semántica fija, ≥4 puntos) · 2. Curva con métricas (punto de inflexión) · 3. Modos con traza concreta · 4. Presupuesto cuantificado · 5. Reproducibilidad (un comando).
Lo que viene en N1: las cuatro palancas (write/select/compress/isolate). Aplicas compaction, re-ejecutas este sweep, y mides si la curva se desplaza. Este baseline es el listón.