SEXTANTEcursos técnicos de IA
métodoromper-y-arreglar
presupuestoatención
Entrar
N0 · Diagnóstico/L0

Índice del nivel: Diagnóstico

Objetivo de maestría

al terminar el nivel, reproducirás y cuantificarás la degradación de un agente en runs largos — curva de calidad frente a longitud, modos de fallo clasificados con sus trazas y presupuesto de contexto desglosado. Ese informe reproducible es el checkpoint C0, y el baseline que el resto del curso debe batir.


0.1Por qué este nivel va primero

No puedes recuperar una fiabilidad que no has medido. Antes de tocar una sola palanca — compactar, dar memoria, curar herramientas, aislar contextos — necesitas tres datos de tu agente. Dónde empieza a degradarse. De qué modo concreto falla. Y qué partida de su contexto se come el presupuesto.

Este nivel trabaja sobre Magallanes, un deep-research agent construido en LangGraph que busca, lee documentos y escribe informes. Llega funcional, instrumentado con Langfuse y deliberadamente ingenuo: acumula todo en su contexto, sin gestión alguna. Tu trabajo no es arreglarlo todavía. Es romperlo con método y medir el destrozo.

0.2Lecciones

  1. El mito de la ventana infinita — context rot, longitud efectiva vs anunciada y el presupuesto de atención: por qué "cabe en la ventana" no significa "funciona".
  2. Los cuatro modos de morir — poisoning, distraction, confusion y clash: el vocabulario de diagnóstico de todo el curso.
  3. El presupuesto de tu agente — las cuatro partidas del contexto, medidas con token counting real; qué crece por turno y por qué.
  4. El context sweep — el instrumento: misma tarea, longitud creciente, y la curva de degradación de TU agente.
  5. Diagnóstico completo — el informe que integra curva, modos y presupuesto (checkpoint C0).

Apéndice: El harness en 30 minutos — el instrumento mínimo de medición, si no hiciste el curso de evals.

0.3El checkpoint C0 — Degradación medida

Sobre Magallanes, montarás un context sweep: misma tarea, semántica fija, cuatro o más longitudes. El entregable es un informe de diagnóstico con tres piezas. La curva de calidad frente a longitud. Los modos de fallo observados, con la traza que los evidencia. Y el desglose del presupuesto de contexto (system prompt, tools, historial, tool results). Todo reproducible con un comando.

Se evalúa por cinco dimensiones:

  1. Sweep controlado — solo varía la longitud; ≥4 puntos.
  2. Curva con métricas del harness, con el punto de inflexión identificado.
  3. Diagnóstico de modos con la traza que lo evidencia.
  4. Presupuesto cuantificado con token counting.
  5. Reproducibilidad con un comando.

Aprobado = las tres primeras + una de las dos últimas.

0.4Antes de empezar

  • Prerequisitos: Python intermedio y haber construido al menos un agente con tool-calling. No necesitas conocer LangGraph a fondo: Magallanes llega construido.
  • ¿Hiciste el curso de Evals & Observabilidad? Si sí, usarás tu harness con ventaja. Si no, el apéndice A te monta el instrumento mínimo en 30 minutos — y al terminar este curso sabrás por qué merece la pena el instrumento serio.