Índice del nivel: Evals por arquitectura
al terminar el nivel, diseñarás y ejecutarás la suite de evals específica de la arquitectura del agente de Aurora (RAG + tool-calling) — RAG triad + métricas IR de retrieval + evaluación de trayectoria — y producirás un informe que, ante un fallo, dice en qué componente está (retrieval, generación u orquestación). Ese es el checkpoint C3.
0.1Por qué este nivel
Una respuesta mala no es un fallo monolítico. Cuando el agente de Aurora promete una política de devoluciones que no existe, el error pudo nacer en tres sitios muy distintos. El retriever trajo el chunk equivocado, el modelo ignoró un contexto correcto, o el agente ni siquiera llamó a la herramienta de consulta y respondió de memoria. Tres causas, tres arreglos opuestos, una misma respuesta mala.
La idea que vertebra el nivel es que la arquitectura dicta la eval: como el sistema es RAG + tool-calling, sus fallos viven en tres capas, y métricas distintas localizan cada una. Un único score end-to-end te dice que algo falló; no dónde. Este nivel te da el instrumental para señalar al culpable.
N3 no parte de cero: construye sobre los tres niveles previos. Hereda las trazas explotables de N0 (la jerarquía root → retrieval → LLM → tool es justo el árbol que ahora mides por tramos). Hereda el dataset etiquetado y la taxonomía de fallos de N1 (mides tus modos de fallo reales, no métricas genéricas). Y hereda el juez calibrado de N2 (la RAG triad lo reutiliza para groundedness y relevance — un vértice de la triad es ese juez validado, no uno nuevo sin calibrar).
0.2Lecciones
- La arquitectura dicta la eval — el mapa de fallos por componente: retrieval, generación, orquestación.
- La RAG triad — context relevance, groundedness y answer relevance (origen TruLens) con Ragas/DeepEval.
- El retriever a examen: métricas IR — precision@k, recall@k, MRR, NDCG y su relación con context precision.
- Evaluar al agente: trayectoria y tool-calls — tool-call/argument correctness, outcome > transcript, pass@k/pass^k.
- Diagnóstico integral: localizar al culpable — el árbol de diagnóstico que distingue retrieval/generación/orquestación.
- La suite del sistema — empaquetar todo en una suite ejecutable (checkpoint C3).
0.3El checkpoint C3 — La suite del sistema
Diseñarás y ejecutarás la suite de evals del agente de Aurora combinando tres familias de métricas. (a) La RAG triad (context relevance, groundedness, answer relevance) con Ragas/DeepEval. (b) Métricas IR del retriever (precision@k/recall@k, MRR/NDCG). (c) Evaluación de trayectoria (tool-call/argument correctness, con el principio outcome > transcript). Entregable: una suite ejecutable + un informe que, ante un fallo, dice en qué componente está.
Se evalúa por cinco dimensiones. Las tres primeras: la RAG triad (3 vértices bien interpretados), las métricas IR del retrieval (apropiadas, con k justificado) y la evaluación del agente (tool-call/argument correctness + outcome > transcript). Las dos restantes: la localización (la suite distingue retrieval/generación/orquestación) y la accionabilidad (las métricas guían una mejora concreta).