SEXTANTEcursos técnicos de IA
métodobackward-design
árbitroel dato
Entrar
N4 · El gate del deploy/L0

Índice del nivel: El gate del deploy

Objetivo de maestría

al terminar el nivel, montarás un harness de evals en CI sobre el dataset versionado del C1 —con assertions deterministas y model-graded, integrado en GitHub Actions— y demostrarás que un PR con una regresión medible bloquea el merge (build rojo) y uno que mejora pasa (build verde). Ese es el checkpoint C4.


0.1Por qué este nivel

Un eval que no puede fallar el build no gobierna nada. La fiabilidad se demuestra en CI, no en un notebook.

Hasta ahora has construido los activos: en N1 un dataset etiquetado de los fallos de Aurora, en N2 un LLM-as-judge validado contra humanos, en N3 una suite por arquitectura (RAG triad, retrieval, trayectoria). Todo eso corre verde en tu portátil. Pero si un compañero abre un PR "mejora el prompt del agente" y lo mergea sin correr tu suite, la regresión llega a producción igualmente. El trabajo de evaluación existía, pero no gobernaba el deploy.

Este nivel industrializa esos activos: los convierte en una puerta de CI que se dispara en cada PR y frena el merge ante una regresión. Es la observabilidad en su forma de gate determinista offline —ni la mínima de N0 ni la de producción de N5—. Cuando termines, el cambio "que parecía mejor" ya no llega a producción sin pasar por la puerta.

0.2Lecciones

  1. Por qué un eval que no falla el build no sirve — gate offline vs online y la pirámide de coste L1/L2/L3 revisitada.
  2. promptfoo de cero — config YAML, assertions deterministas y model-graded, correr la suite en local.
  3. Evals como tests: pytest + DeepEvalassert_test con thresholds sobre el dataset versionado.
  4. El gate en CI: GitHub Actions — corre en cada PR, falla el build con fail-on-threshold (no fail-on-error) y comenta el resultado en el PR.
  5. Umbrales y regresión — deterministas estrictos vs juez con margen; baseline y deltas, no números arbitrarios.
  6. El gate de CI: el checkpoint C4 — demuestra el bloqueo: PR rojo por regresión, PR verde por mejora.

0.3El checkpoint C4 — Gate de CI

Montarás un harness de evals en CI (promptfoo + pytest/DeepEval) sobre el dataset versionado del C1, con assertions deterministas y model-graded, integrado en GitHub Actions. Demostrarás que un PR con una regresión medible bloquea el merge (build rojo) y uno que mejora pasa. Entregable: repo con CI verde/rojo demostrado + config de umbrales.

Se evalúa por cinco dimensiones. Las tres primeras: harness (deterministas + model-graded sobre dataset versionado), integración CI (GitHub Actions, en cada PR) y gate real (falla el build ante regresión vía fail-on-threshold / jq+exit 1). Las dos restantes: umbrales justificados (determinista estricto + juez con margen, no arbitrarios) y la demostración (PR rojo por regresión inyectada + PR verde por mejora).