SEXTANTEcursos técnicos de IA
métodobackward-design
árbitroel dato
Entrar
N5 · Producción y experimentación/L0

Índice del nivel: Producción y experimentación

Objetivo de maestría

al terminar el nivel, cerrarás el flywheel del agente de soporte de Aurora en producción: evals online sobre tráfico real con sampling, feedback de usuario como señal, un experimento decidido con datos (no vibes) y un monitor de drift — y convertirás un fallo de producción en un caso nuevo del dataset. Ese es el checkpoint C5, y cierra el curso.


0.1Por qué este nivel cierra el curso

En el Nivel 4 montaste un gate de CI que falla el build ante una regresión. Protege el deploy. Pero un eval offline solo conoce lo que ya está en tu dataset: no ve lo que el mundo real le manda al agente después de desplegar. El reembolso fantasma del N0·L1 puede volver con un fraseo que tu dataset nunca contempló, y el gate verde no se entera.

Este nivel cierra esa brecha. El flywheel Analizar → Medir → Mejorar da su última vuelta, la que lo cierra: los fallos de producción son el próximo dataset. Aprenderás a evaluar sobre tráfico real sin arruinarte en cómputo (sampling, observation-level) y a escuchar la señal que el propio usuario emite —explícita e implícita—. También a decidir con estadística si una "mejora" mejora de verdad, y a detectar cuándo el sistema se degrada, incluso si el proveedor cambia el modelo bajo tus pies.

El cierre es literal: un fallo que ocurre en producción se etiqueta, entra en el dataset versionado, dispara una nueva iteración offline y, si la mejora es significativa, se valida con un experimento. El ciclo entero —de N0 a N5— vuelve a empezar, ahora alimentado por el propio uso del sistema. De "no tienes datos, tienes vibes" a un sistema que se mejora a sí mismo.

0.2Lecciones

  1. El flywheel se cierra en producción — online vs offline; por qué el gate de CI no basta y por qué producción es el siguiente dataset.
  2. Evals online con Langfuse — evaluar tráfico real a nivel de observación, con sampling para controlar el coste.
  3. Escuchar al usuario: feedback como señal — feedback explícito (thumbs) vs implícito (retries, copia, abandono) como scores; el riesgo de reward hacking.
  4. Experimentar de verdad: shadow, canary, A/B — significancia, CI bootstrap y estratificación; decidir con datos, no con vibes.
  5. Drift y degradación — qué monitorizar, PSI y alertas; cuando el modelo del proveedor cambia bajo tus pies.
  6. Cerrar el flywheel — de un fallo de producción a un caso de eval (checkpoint C5 y cierre del curso).

0.3El checkpoint C5 — Flywheel cerrado en producción

Sobre el agente de Aurora en "producción" (tráfico simulado), montarás cuatro piezas y las unirás en un flujo. (a) Evals online en Langfuse con sampling. (b) Feedback de usuario (explícito e implícito) capturado como scores. (c) Un experimento (shadow/A-B) de una mejora, decidido con datos (CI bootstrap / significancia), no con vibes. (d) Un monitor de drift. Entregable: un dashboard de producción + un informe del experimento con veredicto basado en datos + un fallo de producción convertido en un caso nuevo del dataset (el flywheel cerrado).

Se evalúa por cinco dimensiones. Las dos primeras: evals online (sampling, observation-level, sobre trazas reales); y feedback (explícito + implícito como scores, con su interpretación de ruido y reward hacking). La tercera: experimento (rollout y decisión por datos vía CI/significancia, no vibes). Las dos restantes: drift (qué monitoriza —input/output/semantic, PSI— con umbral y alerta); y el cierre del flywheel (un fallo de prod → caso nuevo del dataset → nueva iteración).