CursosCURSO C·02NIVELES 6CHECKPOINTS C0–C5

Avanzado · 50 h · 42 lecciones · abierto

Evals & Observabilidad de sistemas LLM

Banco de pruebas: un agente de soporte real (RAG + tool-calling) instrumentado, medido y gobernado por evals. De las vibes a un flywheel de datos.

Empezar Ver temario

flywheel.loop3 fases

Analizartrazas

Medirjuez

Mejorardeploy

Filosofía

Si no lo mides, son vibes. El dato gobierna el deploy — error analysis sobre trazas reales de producción.

Banco de pruebas

agente soporte · RAG + tools

Stack

Langfuse · Ragas/DeepEval · promptfoo

Horas

50h

Nivel

Avanzado

Temario · ruta de maestría

Los 6 niveles

N0 → N5
cada nivel cierra contra un checkpoint

Observabilidad

Hacer visible el sistema: tracing estructurado de un agente RAG+tools y un dataset de trazas explotable.

Error analysisnúcleo

El corazón del flywheel: open/axial coding sobre datos reales, taxonomía de fallos y dataset etiquetado.

LLM-as-judge calibradonúcleo

Medir lo subjetivo con un juez validado contra humanos (TPR/TNR, κ) y con sus sesgos bajo control.

Evals por arquitectura

RAG triad, métricas de retrieval y evaluación de trayectoria de agentes para localizar el fallo.

El gate del deploy

Evals offline como puerta de CI: un harness que falla el build ante regresión.

Producción y experimentación

Cerrar el flywheel online: evals en producción, A/B testing, feedback de usuarios y detección de drift.

Sistema de progreso · tabla maestra

6 checkpoints

estados: pendiente · en curso · superado
no se avanza sin superar el número

Checkpoints del curso
ID	Checkpoint	Nivel	Estado
C0	Sistema instrumentado	N0	Entrar para validar
C1	Error analysis + datasetnúcleo	N1	Entrar para validar
C2	Juez calibradonúcleo	N2	Entrar para validar
C3	Suite por arquitectura	N3	Entrar para validar
C4	Gate de CI	N4	Entrar para validar
C5	Flywheel en producción	N5	Entrar para validar