Índice del nivel: Diagnóstico

Objetivo de maestría

al terminar el nivel, reproducirás y cuantificarás la degradación de un agente en runs largos — curva de calidad frente a longitud, modos de fallo clasificados con sus trazas y presupuesto de contexto desglosado. Ese informe reproducible es el checkpoint C0, y el baseline que el resto del curso debe batir.

0.1Por qué este nivel va primero

No puedes recuperar una fiabilidad que no has medido. Antes de tocar una sola palanca — compactar, dar memoria, curar herramientas, aislar contextos — necesitas tres datos de tu agente. Dónde empieza a degradarse. De qué modo concreto falla. Y qué partida de su contexto se come el presupuesto.

Este nivel trabaja sobre Magallanes, un deep-research agent construido en LangGraph que busca, lee documentos y escribe informes. Llega funcional, instrumentado con Langfuse y deliberadamente ingenuo: acumula todo en su contexto, sin gestión alguna. Tu trabajo no es arreglarlo todavía. Es romperlo con método y medir el destrozo.

0.2Lecciones

El mito de la ventana infinita — context rot, longitud efectiva vs anunciada y el presupuesto de atención: por qué "cabe en la ventana" no significa "funciona".
Los cuatro modos de morir — poisoning, distraction, confusion y clash: el vocabulario de diagnóstico de todo el curso.
El presupuesto de tu agente — las cuatro partidas del contexto, medidas con token counting real; qué crece por turno y por qué.
El context sweep — el instrumento: misma tarea, longitud creciente, y la curva de degradación de TU agente.
Diagnóstico completo — el informe que integra curva, modos y presupuesto (checkpoint C0).

Apéndice: El harness en 30 minutos — el instrumento mínimo de medición, si no hiciste el curso de evals.

0.3El checkpoint C0 — Degradación medida

Sobre Magallanes, montarás un context sweep: misma tarea, semántica fija, cuatro o más longitudes. El entregable es un informe de diagnóstico con tres piezas. La curva de calidad frente a longitud. Los modos de fallo observados, con la traza que los evidencia. Y el desglose del presupuesto de contexto (system prompt, tools, historial, tool results). Todo reproducible con un comando.

Se evalúa por cinco dimensiones:

Sweep controlado — solo varía la longitud; ≥4 puntos.
Curva con métricas del harness, con el punto de inflexión identificado.
Diagnóstico de modos con la traza que lo evidencia.
Presupuesto cuantificado con token counting.
Reproducibilidad con un comando.

Aprobado = las tres primeras + una de las dos últimas.

0.4Antes de empezar

Prerequisitos: Python intermedio y haber construido al menos un agente con tool-calling. No necesitas conocer LangGraph a fondo: Magallanes llega construido.
¿Hiciste el curso de Evals & Observabilidad? Si sí, usarás tu harness con ventaja. Si no, el apéndice A te monta el instrumento mínimo en 30 minutos — y al terminar este curso sabrás por qué merece la pena el instrumento serio.