Evals & Observabilidad de sistemas LLM
Banco de pruebas: un agente de soporte real (RAG + tool-calling) instrumentado, medido y gobernado por evals. De las vibes a un flywheel de datos.
Si no lo mides, son vibes. El dato gobierna el deploy — error analysis sobre trazas reales de producción.
Los 6 niveles
Observabilidad
Hacer visible el sistema: tracing estructurado de un agente RAG+tools y un dataset de trazas explotable.
Error analysisnúcleo
El corazón del flywheel: open/axial coding sobre datos reales, taxonomía de fallos y dataset etiquetado.
LLM-as-judge calibradonúcleo
Medir lo subjetivo con un juez validado contra humanos (TPR/TNR, κ) y con sus sesgos bajo control.
Evals por arquitectura
RAG triad, métricas de retrieval y evaluación de trayectoria de agentes para localizar el fallo.
El gate del deploy
Evals offline como puerta de CI: un harness que falla el build ante regresión.
Producción y experimentación
Cerrar el flywheel online: evals en producción, A/B testing, feedback de usuarios y detección de drift.
6 checkpoints
| ID | Checkpoint | Estado |
|---|---|---|
| C0 | Sistema instrumentado | Entrar para validar |
| C1 | Error analysis + datasetnúcleo | Entrar para validar |
| C2 | Juez calibradonúcleo | Entrar para validar |
| C3 | Suite por arquitectura | Entrar para validar |
| C4 | Gate de CI | Entrar para validar |
| C5 | Flywheel en producción | Entrar para validar |