SEXTANTEcursos técnicos de IA
métodobackward-design
árbitroel dato
Entrar
N0 · Observabilidad/L0

Índice del nivel: Observabilidad

Objetivo de maestría

al terminar el nivel, instrumentarás el agente de soporte de Aurora (RAG + tool-calling) con tracing estructurado y producirás un dataset de ≥100 trazas reales y explotable — la materia prima del error analysis. Ese es el checkpoint C0.


0.1Por qué este nivel va primero

No puedes mejorar lo que no puedes ver. Antes de medir la calidad de un sistema LLM necesitas ver qué ocurre dentro de cada request. Eso es: qué recuperó de la base de conocimiento, qué decidió el modelo, qué herramienta llamó, cuánto costó y dónde se rompió. Este nivel te da esa visión y la convierte en datos que el resto del curso explotará.

La observabilidad no es un dashboard bonito. Es la primera vuelta del flywheel Analizar → Medir → Mejorar: sin trazas explotables, todo lo demás son vibes.

0.2Lecciones

  1. De vibes a datos: por qué empezamos por ver — el flywheel, "look at your data" y qué hace que una traza sea explotable.
  2. Anatomía de una traza — trace, span, observation y session: el modelo mental.
  3. Instrumentar con Langfuse — del cero al primer trace con el SDK.
  4. Qué capturar y por qué (y qué no) — tokens, coste, latencia, errores; las convenciones GenAI de OpenTelemetry.
  5. Trazar un agente RAG+tools — spans anidados, el bug del span huérfano y sesiones multi-turno.
  6. De trazas a preguntas — tu dataset de trazas listo para el análisis (checkpoint C0).

0.3El checkpoint C0 — Sistema instrumentado

Instrumentarás el agente de Aurora de modo que cada request produzca una traza con spans anidados (retrieval → llamadas al LLM → tool calls), capturando los campos críticos (coste, latencia, tokens, finish_reason, errores) con user_id/session_id. Entregable: un export de ≥100 trazas reales navegable, donde puedas reconstruir qué pasó en cualquier request.

Se evalúa por cinco dimensiones: cobertura de instrumentación, jerarquía correcta (sin spans huérfanos), campos críticos presentes, trazabilidad de sesión y reproducibilidad del dataset.