Índice del nivel: Diagnóstico
al terminar el nivel, reproducirás y cuantificarás la degradación de un agente en runs largos — curva de calidad frente a longitud, modos de fallo clasificados con sus trazas y presupuesto de contexto desglosado. Ese informe reproducible es el checkpoint C0, y el baseline que el resto del curso debe batir.
0.1Por qué este nivel va primero
No puedes recuperar una fiabilidad que no has medido. Antes de tocar una sola palanca — compactar, dar memoria, curar herramientas, aislar contextos — necesitas tres datos de tu agente. Dónde empieza a degradarse. De qué modo concreto falla. Y qué partida de su contexto se come el presupuesto.
Este nivel trabaja sobre Magallanes, un deep-research agent construido en LangGraph que busca, lee documentos y escribe informes. Llega funcional, instrumentado con Langfuse y deliberadamente ingenuo: acumula todo en su contexto, sin gestión alguna. Tu trabajo no es arreglarlo todavía. Es romperlo con método y medir el destrozo.
0.2Lecciones
- El mito de la ventana infinita — context rot, longitud efectiva vs anunciada y el presupuesto de atención: por qué "cabe en la ventana" no significa "funciona".
- Los cuatro modos de morir — poisoning, distraction, confusion y clash: el vocabulario de diagnóstico de todo el curso.
- El presupuesto de tu agente — las cuatro partidas del contexto, medidas con token counting real; qué crece por turno y por qué.
- El context sweep — el instrumento: misma tarea, longitud creciente, y la curva de degradación de TU agente.
- Diagnóstico completo — el informe que integra curva, modos y presupuesto (checkpoint C0).
Apéndice: El harness en 30 minutos — el instrumento mínimo de medición, si no hiciste el curso de evals.
0.3El checkpoint C0 — Degradación medida
Sobre Magallanes, montarás un context sweep: misma tarea, semántica fija, cuatro o más longitudes. El entregable es un informe de diagnóstico con tres piezas. La curva de calidad frente a longitud. Los modos de fallo observados, con la traza que los evidencia. Y el desglose del presupuesto de contexto (system prompt, tools, historial, tool results). Todo reproducible con un comando.
Se evalúa por cinco dimensiones:
- Sweep controlado — solo varía la longitud; ≥4 puntos.
- Curva con métricas del harness, con el punto de inflexión identificado.
- Diagnóstico de modos con la traza que lo evidencia.
- Presupuesto cuantificado con token counting.
- Reproducibilidad con un comando.
Aprobado = las tres primeras + una de las dos últimas.
0.4Antes de empezar
- Prerequisitos: Python intermedio y haber construido al menos un agente con tool-calling. No necesitas conocer LangGraph a fondo: Magallanes llega construido.
- ¿Hiciste el curso de Evals & Observabilidad? Si sí, usarás tu harness con ventaja. Si no, el apéndice A te monta el instrumento mínimo en 30 minutos — y al terminar este curso sabrás por qué merece la pena el instrumento serio.