Context Engineering para agentes de largo horizonte

Banco de pruebas: un deep-research agent que se degrada en runs largos, roto y recuperado nivel a nivel — compaction, memoria, tool curation y aislamiento, medidos con un harness de evals.

Empezar Ver temario

sweep.curvecalidad vs tokens

Rompercontext rot

Medirsweep

Arreglar4 palancas

Filosofía

El contexto no es un saco: es un presupuesto. Cada token compite por atención — y la fiabilidad se recupera midiendo, no rezando.

Banco de pruebas

deep-research agent · LangGraph

Stack

LangGraph · Langfuse · promptfoo

Horas

35h

Nivel

Avanzado

Temario · ruta de maestría

Los 5 niveles

N0 → N4
cada nivel cierra contra un checkpoint

en curso

Diagnóstico

Por qué mueren los contextos largos: context rot, los cuatro modos de fallo y el context sweep que mide la degradación de tu agente.

CK · C0abrir

pendiente

Las 4 palancasnúcleo

Write/select/compress/isolate como sistema de decisión; trimming, compaction con preservación y la altitud del system prompt.

CK · C1abrir

pendiente

Memoria

Note-taking estructurado, store externo con políticas y una memoria que sobrevive al reinicio — artesanal primero, frameworks después.

CK · C2abrir

pendiente

Tools y just-in-time

El contexto mínimo viable: curar el toolset, referencias ligeras, progressive disclosure y tool results bajo control.

CK · C3abrir

pendiente

Aislamientonúcleo

Sub-agentes con ventanas limpias y handoffs destilados; el debate multi-agente honesto y el checkpoint macro del curso.

CK · C4abrir

Sistema de progreso · tabla maestra

5 checkpoints

estados: pendiente · en curso · superado
no se avanza sin superar el número

Checkpoints del curso
ID	Checkpoint	Nivel	Estado
C0	Degradación medida	N0	Entrar para validar
C1	Recuperación por compactionnúcleo	N1	Entrar para validar
C2	Memoria que sobrevive	N2	Entrar para validar
C3	Contexto mínimo viable	N3	Entrar para validar
C4	Agente recuperado (macro)núcleo	N4	Entrar para validar