Anatomía de un LLM-as-judge · SEXTANTE

SEXTANTEcursos técnicos de IA

01 Inicio 02 Cursos

métodobackward-design

árbitroel dato

Evals & Observabilidad de sistemas LLM

Progresoinicia sesión

L0 Índice del nivel: Observabilidad L1 De vibes a datos: por qué empezamos por ver L2 Anatomía de una traza: trace, span, observation, session L3 Instrumentar con Langfuse: del cero al primer trace L4 Qué capturar y por qué (y qué no)L5 Trazar un agente RAG+tools: la jerarquía que sí sirve L6 De trazas a preguntas: tu dataset listo para el análisis

L0 Índice del nivel: Error analysis L1 El acto fundacional: look at your data L2 Open coding: leer trazas como investigador L3 Axial coding: de notas a taxonomía L4 De fallos a dataset etiquetado L5 Datos sintéticos con criterio L6 Taxonomía + dataset: el checkpoint C1

L0 Índice del nivel: LLM-as-judge calibrado L1 ¿Código o juez? Mide barato primero L2 Anatomía de un LLM-as-judge L3 Validar el juez contra humanos L4 Los sesgos del juez y cómo domarlos L5 Alinear el juez: el bucle de iteración L6 Juez calibrado: el checkpoint C2

L0 Índice del nivel: Evals por arquitectura L1 La arquitectura dicta la eval L2 La RAG triad: tres vértices, tres preguntas L3 El retriever a examen: métricas IR L4 Evaluar al agente: trayectoria y tool-calls L5 Diagnóstico integral: localizar al culpable L6 La suite del sistema: el checkpoint C3

L0 Índice del nivel: El gate del deploy L1 Por qué un eval que no falla el build no sirve L2 promptfoo de cero L3 Evals como tests: pytest + DeepEval L4 El gate en CI: GitHub Actions L5 Umbrales y regresión L6 El gate de CI: el checkpoint C4

L0 Índice del nivel: Producción y experimentación L1 El flywheel se cierra en producción L2 Evals online con Langfuse L3 Escuchar al usuario: feedback como señal L4 Experimentar de verdad: shadow, canary, A/B L5 Drift y degradación L6 Cerrar el flywheel: el checkpoint C5

Checkpoints · 0/6

C0

C1

C2

C3

C4

C5

N2 · LLM-as-judge calibrado/L2

Comprobando tu progreso…