Context Engineering para agentes de largo horizonte
Banco de pruebas: un deep-research agent que se degrada en runs largos, roto y recuperado nivel a nivel — compaction, memoria, tool curation y aislamiento, medidos con un harness de evals.
El contexto no es un saco: es un presupuesto. Cada token compite por atención — y la fiabilidad se recupera midiendo, no rezando.
Los 5 niveles
Diagnóstico
Por qué mueren los contextos largos: context rot, los cuatro modos de fallo y el context sweep que mide la degradación de tu agente.
Las 4 palancasnúcleo
Write/select/compress/isolate como sistema de decisión; trimming, compaction con preservación y la altitud del system prompt.
Memoria
Note-taking estructurado, store externo con políticas y una memoria que sobrevive al reinicio — artesanal primero, frameworks después.
Tools y just-in-time
El contexto mínimo viable: curar el toolset, referencias ligeras, progressive disclosure y tool results bajo control.
Aislamientonúcleo
Sub-agentes con ventanas limpias y handoffs destilados; el debate multi-agente honesto y el checkpoint macro del curso.
5 checkpoints
| ID | Checkpoint | Estado |
|---|---|---|
| C0 | Degradación medida | Entrar para validar |
| C1 | Recuperación por compactionnúcleo | Entrar para validar |
| C2 | Memoria que sobrevive | Entrar para validar |
| C3 | Contexto mínimo viable | Entrar para validar |
| C4 | Agente recuperado (macro)núcleo | Entrar para validar |