Índice del nivel: Error analysis
al terminar el nivel, sobre las ≥100 trazas reales del agente de Aurora descubrirás sus modos de fallo por open + axial coding, construirás una taxonomía priorizada y un dataset de evaluación etiquetado (binario, con splits y casos +/−), ampliado con sintéticos solo donde el análisis lo justifique. Ese es el checkpoint C1.
1.1Por qué este nivel va aquí
En N0 hiciste visible el sistema: ahora tienes ≥100 trazas explotables del agente de Aurora. Pero ver no es saber. La pregunta que abre este nivel es la del verdadero trabajo de evals: ¿cómo pasas de "esto a veces falla" a "falla de estas N formas, y la nº1 es el X%"?
La respuesta no es montar una métrica genérica de "hallucination" o "toxicity". Esas métricas no correlacionan con los fallos reales de tu producto, y un score que sube de 3.72 a 4.2 no te dice si mejoraste. El acto fundacional es otro: mira tus datos. Los criterios de evaluación emergen de observar outputs reales — es el fenómeno de criteria drift (Shankar et al., Who Validates the Validators?) —, no se definen a priori.
Este es el corazón del flywheel y su primer giro real: Analizar. Lees las trazas como un investigador, anotas el primer fallo de cada una, agrupas las notas en una taxonomía, cuentas, priorizas, y conviertes todo en un dataset etiquetado. Ese dataset es el activo que el resto del curso —el juez de N2, la suite de N3, el gate de N4, el flywheel de N5— versiona y hace crecer. Aquí nace.
1.2Lecciones
- El acto fundacional: "look at your data" — por qué las métricas genéricas fallan y los criterios emergen de mirar datos (criteria drift).
- Open coding: leer trazas como investigador — notas abiertas por traza, el primer fallo y los errores en cascada.
- Axial coding: de notas a taxonomía — categorizar, contar, priorizar y decidir la saturación.
- De fallos a dataset etiquetado — etiquetas binarias, splits, casos +/− y el dataset como activo versionado.
- Datos sintéticos con criterio — cuándo sí y cuándo no, el proceso de 2 pasos y el riesgo de model collapse.
- Taxonomía + dataset: el checkpoint C1 — ensamblas el entregable del análisis y cierras el nivel (checkpoint C1).
1.3El checkpoint C1 — Análisis + dataset
Sobre las ≥100 trazas del agente de Aurora harás open coding (notas por traza, con foco en el primer fallo) y axial coding (taxonomía con conteos). Priorizarás por frecuencia e impacto. Producirás un dataset etiquetado con etiquetas binarias, split y casos +/− balanceados. Ampliarás con datos sintéticos por el proceso de 2 pasos solo donde el análisis lo justifique. Entregable: taxonomía con conteos + dataset etiquetado + justificación de los sintéticos.
Se evalúa por cinco dimensiones. Las dos primeras: calidad del open coding (notas concretas, foco en el primer fallo) y coherencia del axial coding (taxonomía, conteos, priorización). La tercera: criterio de saturación justificado (~20 trazas sin categoría nueva tras ≥100). Las dos restantes: dataset bien construido (binario, split, +/− balanceados) y sintéticos justificados por gaps reales (proceso de 2 pasos; nunca para lo que se arregla en el prompt).