Cuatro palancas, un presupuesto
usarás el marco write / select / compress / isolate como un sistema de decisión síntoma→palanca: mapear cada hallazgo del diagnóstico de N0 a su palanca y ordenarlas por coste. Importa porque sin ese sistema aplicas los cuatro arreglos a la vez y no sabes cuál funcionó ni cuánto costó.
1.1El problema
Tienes el informe C0 de Magallanes sobre la mesa. La curva con su punto de inflexión, los modos de fallo clasificados con sus trazas, el presupuesto desglosado por partida. El diagnóstico está cerrado.
Llega la retro del equipo. Cada uno propone su arreglo favorito. "Resume el historial." "Quita la mitad de las tools." "Divide esto en sub-agentes." "Reescribe el system prompt, está infumable." Las cuatro propuestas suenan razonables. Lo son.
Y ahí está la trampa. Sin un sistema de decisión, vas a aplicar los cuatro arreglos a la vez. Cuando la curva mejore —si mejora— no sabrás cuál de los cuatro la movió. Cuando la factura suba, no sabrás cuál de los cuatro la infló. Habrás cambiado todo y aprendido nada.
Peor: uno de esos arreglos cuesta quince veces más que otro y resuelve el mismo síntoma. Aplicar el caro cuando bastaba el barato no es un detalle de estilo. Es una factura quince veces mayor por el mismo resultado. · fuente: corpus A.6 (multi-agente ~15× tokens, Anthropic, 13 jun 2025).
Lo que falta no es otra técnica. Lo que falta es el mapa que conecta cada síntoma del informe con la palanca que lo trata, ordenado de barato a caro. En esta lección lo construyes. Ese mapa es el guion del resto del nivel.
1.2Qué vas a poder hacer
Al terminar serás capaz de:
- Nombrar las cuatro palancas —write, select, compress, isolate— con su definición y su autor real.
- Mapear cada modo de fallo del diagnóstico de N0 a la palanca que lo trata.
- Ordenar las palancas por coste y justificar por qué se empieza por la más barata.
- Detectar el caso trampa: un fallo que no es un problema de contexto y no le corresponde ninguna palanca.
Necesitas saber antes:
- De N0·L2 (Los cuatro modos de morir): los cuatro modos de fallo —poisoning, distraction, confusion, clash— con sus definiciones. Los recuperamos en 1.3.
- De N0·L3 (El presupuesto de tu agente): qué partida del contexto crece por turno y por qué.
- El esqueleto congelado de Magallanes: el grafo de LangGraph y sus tres tools (
buscar,leer,escribir_seccion).
1.3Recupera
Antes de seguir, responde de memoria. Esto reactiva lo de N0 y engancha lo nuevo.
- De N0·L2: los cuatro modos de fallo del contexto. ¿Cuáles son y qué describe cada uno en una frase?
- De N0·L3: en Magallanes, ¿qué partida del presupuesto crece más rápido por turno y por qué?
- ¿Qué tool de Magallanes es la que infla el contexto a propósito al meter un documento entero en el historial?
Comprueba tu respuesta
- Son cuatro. Poisoning: un error o alucinación entra al contexto y se referencia una y otra vez. Distraction: el contexto crece tanto que el modelo sobre-atiende su historial y descuida lo aprendido en entrenamiento. Confusion: contenido superfluo del contexto se usa para generar una respuesta de baja calidad. Clash: información o tools nuevas chocan con otra información ya presente. Definiciones de Drew Breunig, 22 jun 2025. · fuente: corpus A.3.
- El historial y los tool results dentro de él. El loop ReAct es append-only: cada resultado de tool se acumula en
messagesy se queda. · fuente: corpus A.6. leer(doc_id)— devuelve el documento completo, grande a propósito. Cadaleer()mete un bloque entero al historial. · fuente: esqueleto congelado de Magallanes (N0·L3).
1.4El concepto
Esta sección es densa en atribuciones: hay cuatro personas, cuatro fechas y dos marcos que se solapan. Te recomiendo leer primero el mapa síntoma→palanca del final, y luego volver a las definiciones con ese mapa en mente.
Genealogía honesta del término
Antes del marco, una pieza de honestidad. "Context engineering" no lo acuñó una autoridad central. Surgió en una semana de junio de 2025, en hilos de varias personas, y el curso atribuye cada frase a quien la dijo.
Tobi Lütke (CEO de Shopify) lo propuso primero, hacia el 18-19 de junio. Prefería "context engineering" sobre "prompt engineering" porque describe mejor la habilidad central. Su frase:
"the art of providing all the context for the task to be plausibly solvable by the LLM". · fuente: corpus B.1 (X, vía Willison).
Andrej Karpathy lo respaldó hacia el 25 de junio. Su frase confirmada: "context engineering is the delicate art and science of filling the context window…". · fuente: corpus B.1.
Aquí va un matiz que importa. El verificador no pudo confirmar contra X que el remate de ese tweet —"…with just the right information for the next step"— sea de Karpathy. Esa frase aparece también en el blog de Lance Martin. Por eso citamos solo la parte confirmada, o vía Willison, que reprodujo el tweet el 27 de junio.
Philipp Schmid dio la definición operativa el 30 de junio. Para él, context engineering es:
"the discipline of designing and building dynamic systems that provides the right information and tools, in the right format, at the right time, to give a LLM everything it needs to accomplish a task." · fuente: corpus B.1.
Simon Willison (27 jun) recogió los tweets y defendió que el término se quedaría. · fuente: corpus B.1.
Verás circular que context engineering es "the defining AI skill of 2026". Esa frase es lenguaje editorial de Taskade, no una cita de Gartner ni un dato de mercado. · fuente: corpus B.7. La menciono para que no la repitas como si fuera un hecho verificado.
El marco de las cuatro palancas
Aquí está el instrumento de la lección. El marco que organiza todo lo que puedes hacer con el contexto de un agente.
Las cuatro palancas —write, select, compress, isolate— son una taxonomía de las acciones posibles sobre el contexto. Son de Lance Martin (entonces en LangChain), blog personal "Context Engineering for Agents", 23 de junio de 2025. · fuente: corpus B.2.
La atribución importa, y por eso la subrayo. LangChain publicó un post propio con el mismo marco el 2 de julio, firmado "The LangChain Team", sin atribuir explícitamente a Martin — no es una "republicación", es un post distinto con el mismo marco. Y el post de Anthropic del 29 de septiembre no usa estos cuatro términos. · fuente: corpus B.2. Si alguien te dice que las cuatro palancas son de Anthropic, está equivocado.
La analogía: las cuatro palancas son como las cuatro operaciones que tiene un editor con un texto demasiado largo. Puedes mover una parte a un archivo aparte (write), traer solo lo que hace falta ahora (select), reescribirlo más corto (compress) o repartirlo en documentos separados (isolate). Dónde falla la analogía: un editor humano lee el texto entero antes de decidir; el agente trabaja turno a turno, sin una visión global del documento. La decisión es estructural, no editorial.
Las definiciones verbatim de Martin. · fuente: corpus B.2:
- Write — "saving it outside the context window to help an agent perform a task". Guardar información fuera del contexto: scratchpads, memorias. No la cargas; la depositas para recuperarla luego.
- Select — "pulling it into the context window". Traer al contexto solo lo relevante: memorias, CLAUDE.md, RAG sobre tools, búsqueda agéntica.
- Compress — "retaining only the tokens required". Quedarte solo con los tokens necesarios: summarization, auto-compact, trimming.
- Isolate — "splitting it up". Repartir el contexto: multi-agente, sandboxing, campos de estado expuestos selectivamente.
La contraparte operativa de Anthropic
Las cuatro palancas son la taxonomía. Las técnicas concretas para ejecutarlas vienen, en buena parte, del marco de Anthropic (29 sep 2025). · fuente: corpus B.3.
Ese post usa términos literales propios: compaction, structured note-taking, sub-agent architectures, just-in-time context strategies, progressive disclosure, tool result clearing. · fuente: corpus B.3. No son las cuatro palancas; son las herramientas que las implementan.
La lectura del curso: las palancas de Martin son el qué (qué clase de operación haces sobre el contexto); las técnicas de Anthropic son el cómo (con qué mecanismo concreto la haces). Ambos marcos son compatibles. La compaction de Anthropic es una forma de compress; el structured note-taking es una forma de write; los sub-agentes son una forma de isolate. El curso los integra señalando siempre quién dijo qué.
El principio de orden: lo más barato primero
Tener cuatro palancas no significa que valgan lo mismo. Aquí está el criterio que convierte el marco en un sistema de decisión.
El principio rector de Anthropic cierra su post: "do the simplest thing that works". · fuente: corpus B.3. Aplicado a las palancas: empieza por la intervención más barata que resuelva el síntoma, no por la más potente.
Y las palancas no cuestan lo mismo. Compress sobre el historial suele ser la palanca más barata — son pocas líneas que recortan o destilan lo que ya tienes. Isolate suele ser la más cara: un sistema multi-agente consume del orden de quince veces más tokens que un chat simple. · fuente: corpus A.6.
Cuidado con un malentendido aquí. "Lo más barato primero" no significa que compress sea siempre la respuesta. Significa que, ante un síntoma, recorres las palancas de barata a cara y eliges la primera que de verdad lo trata. A veces es compress; a veces el síntoma solo cede con isolate. El orden es el criterio de búsqueda, no el veredicto.
Un detalle que la gente espera y no existe: no hay una heurística porcentual oficial de reparto del presupuesto. Nadie de Anthropic dice "dedica el 20% al prompt y el 30% a las tools". Las recomendaciones son cualitativas. · fuente: corpus B.3. El reparto se decide midiendo, no aplicando una fórmula.
El mapa síntoma→palanca
Ahora el corazón de la lección. N0·L2 adelantó este mapa; aquí queda formal. A cada modo de fallo del diagnóstico le corresponde una palanca de entrada:
| Síntoma (N0·L2) | Qué pasa | Palanca de entrada |
|---|---|---|
| Distraction | El historial crece y el agente repite acciones de su pasado en vez de planear | compress |
| Confusion | Demasiado material superfluo (p. ej. tools de sobra) degrada la elección | select |
| Clash | Información o reglas que se contradicen entre sí | isolate (o curación de lo que choca) |
| Poisoning | Un error entró al contexto y se referencia una y otra vez | validar / write |
Léelo como un punto de partida, no como un dogma. "Palanca de entrada" significa: la primera que pruebas para ese síntoma. La distraction —el historial inflado que hace que el agente repita— es lo que compress ataca de raíz, y por eso N1 empieza por ahí.
Dos de estos síntomas son el trabajo de N1: la distraction vía compress (las lecciones L2 y L3) y el clash inducido por reglas contradictorias del system prompt vía la altitud del prompt (L4). El poisoning y la confusion quedan señalados para N2 y N3 — el mapa los deja explícitos, pero no son la avería de este nivel.
Contraejemplo: la palanca correcta en el orden equivocado
Un caso real de cómo se rompe esto. Un equipo diagnostica distraction en su agente: el historial crece y repite búsquedas que ya hizo. El diagnóstico es correcto.
Saltan directos a isolate: parten el agente en un sistema multi-agente. Funciona — el síntoma desaparece. Pero la palanca de entrada de la distraction era compress, y en este caso un trimming de diez líneas sobre el historial lo habría resuelto igual. Eligieron la palanca correcta para el problema general, pero en el orden equivocado: pagaron una factura del orden de quince veces mayor por algo que costaba diez líneas. · fuente: corpus A.6.
La lección del contraejemplo: identificar la palanca no basta. El sistema de decisión incluye el orden. Síntoma correcto, palanca razonable, orden equivocado, factura 15×.
1.5Míralo funcionar
Vamos a construir un plan de intervención sobre el informe C0 de ejemplo de Magallanes — el mismo informe de N0·L5. No es código todavía; es la tabla de decisión que precede a todo el código del nivel.
El plan tiene cinco columnas: síntoma, evidencia en la traza, palanca, coste estimado, orden. La evidencia es lo que ata cada fila a un hecho del diagnóstico, no a una opinión de la retro.
El informe C0 de ejemplo trae tres hallazgos:
- Distraction: a partir de unos 30 documentos inyectados, Magallanes repite búsquedas que ya había hecho. La traza muestra dos
buscar("ruta de Magallanes")idénticas, con catorce turnos de diferencia. - Clash: la sección 2 del informe afirma que la financiación vino de la corona; la sección 4 dice que vino de banqueros privados. El system prompt tiene dos reglas que se contradicen sobre cómo tratar fuentes en conflicto.
- Confusion: el agente tiene doce tools cargadas; usa tres. La traza muestra una llamada a una tool de geocodificación que el encargo no necesitaba.
El plan construido sobre esos hallazgos:
| Síntoma | Evidencia (traza) | Palanca | Coste | Orden |
|---|---|---|---|---|
| Distraction | Dos buscar idénticas, 14 turnos aparte; historial >30 docs | compress (trimming → compaction) | bajo | 1 |
| Clash | Secciones 2 y 4 se contradicen; 2 reglas del prompt chocan | compress con preservación + curar el prompt (altitud) | medio | 2 |
| Confusion | 12 tools cargadas, 3 usadas; llamada a tool no pedida | select (curar el catálogo de tools) | medio | 3 (→ N3) |
Mira cómo cada decisión sale de la evidencia, no de la preferencia. La distraction va primero porque su palanca —compress— es la más barata y el síntoma domina la curva de N0. El clash y la confusion vienen después.
Self-explanation
Antes de leer la respuesta, razónalo: ¿por qué el clash del informe va a "compress con preservación" y no directamente a "isolate"?
Razónalo y comprueba
Porque el clash de este informe nace del historial inflado y de dos reglas contradictorias del prompt, no de dos líneas de trabajo que se pisan. El mapa pone isolate como palanca de entrada del clash en general — cuando el choque viene de acciones paralelas que toman decisiones incompatibles. Aquí el choque viene de dentro de un solo hilo.
Aplica el principio de orden: "do the simplest thing that works". · fuente: corpus B.3. Antes de partir el agente en sub-agentes (isolate, ~15× tokens · corpus A.6), pruebas lo barato. Eso es destilar el historial preservando las decisiones ya tomadas (compress con preservación) y curar las reglas que chocan en el prompt (altitud, L4). Si eso resuelve el clash, no necesitas isolate.
Si pensaste "clash siempre es isolate", revisa el matiz del mapa: isolate es la palanca de entrada, no la única. El orden manda: pruebas lo barato primero.
1.6Hazlo tú
Andamiaje decreciente: primero rellenas un plan a medio hacer, luego lo construyes de cero y defiendes el orden.
Ejercicio 1 — plan a medio rellenar (confusion dominante)
Te dan el diagnóstico de otra variante de Magallanes. Aquí el síntoma dominante es confusion, no distraction: el agente arrastra un catálogo de 40 tools de un proyecto anterior y elige mal entre ellas. La distraction es leve.
La evidencia: la traza muestra que con 40 tools el agente llama a una tool de traducción que el encargo no pide, e ignora la tool de búsqueda correcta. Recuerda el caso del corpus: un modelo falla al elegir entre 46 tools pero acierta con 19, aunque las 46 quepan en su ventana — "it fails to select the correct one". · fuente: corpus A.3 (Less is More, arXiv:2411.15399).
Completa la fila que falta:
| Síntoma | Evidencia (traza) | Palanca | Coste | Orden |
|---|---|---|---|---|
| Confusion | 40 tools cargadas; llama a tool de traducción no pedida | ? | ? | ? |
| Distraction (leve) | historial moderado, sin repeticiones | compress (trimming ligero) | bajo | 2 |
Comprueba tu respuesta
La fila completa:
| Síntoma | Evidencia | Palanca | Coste | Orden |
|---|---|---|---|---|
| Confusion | 40 tools, llama a traducción no pedida | select (curar el catálogo de tools) | medio | 1 |
El síntoma dominante manda el orden. Aquí la confusion domina, así que su palanca —select— va primera, aunque sea más cara que el trimming. La regla "lo más barato primero" se aplica a síntomas comparables; cuando un síntoma domina la curva, lo tratas antes aunque su palanca cueste algo más.
Feedback: si pusiste compress en la fila de confusion, revisa el mapa de 1.4. Tirar historial no arregla un catálogo de tools sobredimensionado — el problema no está en el historial, está en cuántas opciones malas tiene delante el modelo. La palanca de la confusion es select.
Ejercicio 2 — de cero, defiende el orden
Un tercer diagnóstico, sin plantilla. Variante de Magallanes con dos síntomas comparables: distraction (repite búsquedas tras 25 documentos) y clash (el prompt tiene tres reglas que se contradicen sobre el formato del informe).
Construye el plan completo —las cinco columnas— y, sobre todo, defiende el orden en dos frases: ¿cuál tratas primero y por qué?
Elaborative interrogation — antes de escribirlo, predice: si tratas el clash del prompt primero, ¿cambia eso la distraction? ¿Y al revés?
Comprueba tu razonamiento
Un plan razonable:
| Síntoma | Evidencia | Palanca | Coste | Orden |
|---|---|---|---|---|
| Distraction | repite búsquedas tras 25 docs | compress (trimming → compaction) | bajo | 1 |
| Clash | 3 reglas del prompt se contradicen | curar el prompt (altitud, L4) | bajo-medio | 2 |
La defensa del orden: ambas palancas son baratas, así que el desempate es cuál síntoma domina la curva de N0. La distraction crece con cada turno y domina la pendiente del historial, así que la tratas primero. El clash del prompt es coste fijo por turno, pero no escala con la longitud.
Sobre la predicción cruzada: tratar el clash del prompt no arregla la distraction —el historial seguiría inflándose— y tratar la distraction no resuelve las reglas contradictorias del prompt. Son partidas distintas del presupuesto (corpus A.6 / N0·L3): una crece, la otra es fija. Por eso necesitas dos intervenciones, y por eso —regla dura del nivel— las aplicas y mides una a una.
Feedback: si defendiste el orden por el coste de las palancas (ambas baratas), bien, pero incompleto — el desempate real aquí es qué síntoma domina la curva. Si ordenaste por "el prompt es más fácil de tocar", revisa: el criterio es el impacto medido, no la comodidad.
1.7Comprueba
Sin pistas. Gate de maestría: asignar palanca a cuatro síntomas, justificar desde la evidencia y ordenar por coste. Uno es una trampa.
Te dan cuatro hallazgos de una variante de Magallanes, cada uno con su traza:
- Hallazgo A: tras 40 documentos leídos, el agente vuelve a llamar
leer()sobre documentos que ya tenía en el historial y contradice su propia sección 1. - Hallazgo B: el system prompt mezcla doce parches históricos; dos reglas se contradicen sobre cuándo parar de buscar.
- Hallazgo C: la tool
escribir_secciondevuelve un error y, cuando reintenta, escribe la sección en orden inverso de párrafos — siempre, de forma reproducible, con cualquier longitud de contexto. - Hallazgo D: el agente arrastra 35 tools de las que usa cuatro; en una traza elige una tool de exportación a PDF que el encargo no menciona.
Para cada hallazgo: asigna palanca, justifica desde la evidencia y di en qué orden lo tratarías. Uno no debe recibir ninguna palanca — identifícalo y di por qué.
Criterio de corrección + feedback
- Hallazgo A — distraction → compress. Historial inflado, re-lee documentos, se contradice. Es el síntoma clásico de historial sin gestión. Palanca de entrada: compress (trimming, y compaction si las dependencias tempranas importan). Coste bajo → orden 1. · evidencia: re-lectura + contradicción tras 40 docs.
- Hallazgo B — clash → curar el prompt (altitud). Reglas que se contradicen entre sí: es clash plantado en el system prompt. · fuente: corpus A.3. Palanca: subir el prompt a la altitud correcta (L4). Coste bajo-medio → orden 2.
- Hallazgo C — TRAMPA: ninguna palanca. Esto no es un problema de contexto. La pista está en "siempre, reproducible, con cualquier longitud de contexto". Un fallo determinista que no depende de la longitud no es distraction, ni clash, ni confusion. Es un bug de la tool
escribir_seccion— invierte los párrafos al reintentar. Se arregla en el código de la tool, no con ninguna palanca de contexto. Asignarle una palanca sería tratar un bug de software como si fuera context rot. - Hallazgo D — confusion → select. 35 tools, usa cuatro, elige una que no toca. · fuente: corpus A.3 (Less is More). Palanca: select (curar el catálogo). Coste medio → orden 3.
Feedback formativo: si identificaste el hallazgo C como la trampa, dominas lo esencial de la lección — el sistema de decisión no es "asigna una palanca a todo", es "decide si esto es siquiera un problema de contexto". Esa discriminación es lo que separa el marco de un checklist mecánico, y es eco directo del diferencial determinista que viste en N0·L2. Si le asignaste palanca al C, revisa la pista: lo que no escala con la longitud y es 100% reproducible no es context rot. Gate: necesitas el hallazgo C identificado como trampa para superar este punto.
1.8Conecta
Acabas de escribir el guion del resto del nivel. Esa no es una frase de cierre: es literal.
La rúbrica del checkpoint C1, dimensión 1, te pedirá exactamente este mapeo síntoma→palanca justificado desde tu diagnóstico de C0. El plan que construiste hoy es el primer entregable del nivel.
Y el orden del plan es el orden de las lecciones. N1 ejecuta las palancas más baratas de tu plan: compress sobre el historial (L2 trimming, L3 compaction) y la altitud del system prompt para el clash inducido por reglas contradictorias (L4). Cada una se medirá re-ejecutando el sweep de N0 contra el baseline — una intervención por re-ejecución, o no sabrás cuál movió la curva.
Las otras dos palancas te esperan en sus niveles, cada una con su síntoma:
- write —lo que ningún resumen debería tener que cargar— en memoria.
- select —curar tools y traer solo lo justo— en tools-y-jit.
- isolate —partir el contexto cuando de verdad hace falta, con su factura 15×— en aislamiento.
Cierra el arco que abrimos en 1.1. Tenías cuatro propuestas razonables y ninguna forma de elegir entre ellas. Ahora tienes una tabla: cada síntoma atado a su evidencia, su palanca y su coste, en orden. La discusión de la retro era ruido; tu plan es una decisión de ingeniería.
1.9Reflexiona
Tómate un minuto. Responder esto por escrito consolida lo aprendido mejor que releer.
- ¿Qué aprendiste? Resume en una frase por qué "lo más barato primero" es un criterio de búsqueda y no un veredicto fijo.
- ¿Qué sigue sin estar claro? ¿Tienes claro por qué el marco de las cuatro palancas es de Lance Martin y no de Anthropic, y por qué la atribución importa? Si no, vuelve a 1.4.
- ¿Qué harías distinto? La próxima vez que el equipo proponga cuatro arreglos en una retro, ¿qué tabla pides antes de tocar una línea de código?
Esto requiere práctica. La intuición de "qué palanca y en qué orden" llega construyendo planes sobre diagnósticos reales, no leyendo el mapa. En L2 dejas la tabla y ejecutas la primera fila: el trimming del historial, medido contra el baseline.