Índice del nivel: Las cuatro palancas
al terminar el nivel, recuperarás la fiabilidad de Magallanes gestionando su contexto — y lo demostrarás con la misma curva de N0, ahora desplazada y con su factura al lado. Ese entregable es el checkpoint C1: tu baseline batido, no contado.
0.1Qué cambia respecto a N0
En N0 mediste el destrozo. Reprodujiste la degradación de Magallanes, clasificaste sus modos de fallo y desglosaste su presupuesto de contexto. No tocaste una sola palanca. Ese informe es el checkpoint C0.
Ahora arreglas. La avería no cambia: es la de serie. El loop ReAct append-only de Magallanes acumula cada resultado de tool para siempre — cada leer() mete un documento completo que se queda. N1 no activa ningún flag nuevo. Repara lo que N0 midió.
La regla del nivel es una. Cada intervención re-ejecuta el sweep de N0 y superpone su curva al baseline: una intervención por re-ejecución.
0.2Lecciones
- Cuatro palancas, un presupuesto — el marco write/select/compress/isolate como sistema de decisión síntoma→palanca, ordenado por coste y atribuido a su autor real, Lance Martin.
- Compress I: trimming — gestión de historial por ventana deslizante con
trim_messages: qué recuperas, qué rompes al tirar y cuándo basta. - Compress II: compaction — destilar el historial en vez de tirarlo, con preservación explícita de decisiones, estado y pendientes; el riesgo lossy en el centro.
- La altitud del system prompt — podar el prompt a la zona Goldilocks: ni lógica frágil hardcodeada ni vaguedad, validado con el harness y no con impresiones.
- Recuperación medida — el checkpoint C1: curva antes/después que bate el baseline, caso de control y coste reportado.
0.3El checkpoint C1 — Recuperación medida
C1 es el entregable del nivel: la misma curva de N0, ahora desplazada y con la factura al lado. Recuperas a Magallanes y lo demuestras con datos, no con un relato. La rúbrica completa y el caso de control te esperan en Recuperación medida.
La compaction añade un paso de sampling extra. Eso es coste real: se paga y se reporta (corpus B.4). Una mejora sin su factura no aprueba.
0.4Antes de empezar
- Prerequisito: el diagnóstico y el baseline de N0 — el informe C0 sobre Magallanes (diagnóstico completo). Sin esa curva, no hay nada que batir.
- ¿No tienes harness? El apéndice El harness en 30 minutos monta el instrumento mínimo de medición.
- Sobre el orden de las palancas: el principio es "do the simplest thing that works" (corpus B.3). Compress sobre el historial suele ser lo más barato; isolate, con su arquitectura multi-agente, lo más caro — los sistemas multi-agente consumen ~15× tokens respecto al chat (corpus A.6). Este nivel ejecuta compress y la altitud del prompt. Write te espera en memoria, select en tools y JIT, isolate en aislamiento.