SEXTANTEcursos técnicos de IA
métodoromper-y-arreglar
presupuestoatención
Entrar
N3 · Tools y just-in-time/L0

Índice del nivel: Tools y just-in-time

Objetivo de maestría

al terminar el nivel, reducirás el contexto estático de Magallanes en un 50% o más — catálogo de herramientas curado, corpus precargado servido bajo demanda y tool results domados — sin que su fiabilidad empeore en el sweep que mediste en C0. Ese contraste medido es el checkpoint C3.


0.1Por qué este nivel existe

En N0 plantaste un síntoma y le pusiste número: cuando el catálogo de herramientas crece, Magallanes elige la equivocada. Es el modo confusion que catalogaste en N0·L2. Aquí lo arreglas.

Pero antes de arreglar, el lab empeora el problema a propósito. Al activar el flag lab_n3, Magallanes amanece con el contexto estático hinchado por dos frentes. Un catálogo de 40 herramientas: las 3 congeladas (buscar, leer, escribir_seccion) más 37 variantes redundantes y mal descritas. Y un corpus precargado: el índice entero de la biblioteca metido en el system prompt "por si acaso".

El encargo no cambió. El coste fijo se multiplicó. Y cada turno paga esa renta contra el mismo presupuesto de atención que mediste en N0·L3.

Este nivel trabaja sobre ese Magallanes inflado. Tu trabajo es adelgazarlo con método y demostrar — con la curva, no con la intuición — que sigue igual de fiable.

0.2Lecciones

  1. Cada tool paga renta — cuantifica el coste en tokens del toolset y del conocimiento precargado, con la evidencia de que más herramientas degradan la selección.
  2. Curar el toolset — consolidar, describir, namespacing y respuestas concisas: de 40 herramientas a 12 o menos, validando cada decisión con evals de selección.
  3. Just-in-time y progressive disclosure — sustituir conocimiento precargado por referencias ligeras y carga bajo demanda; decidir la frontera upfront-vs-JIT por tarea.
  4. Domar los tool results — límites por defecto, paginación y truncado en el diseño de la respuesta; tool result clearing con la context editing API.
  5. El contexto mínimo viable — el pipeline completo integrado en el entregable del checkpoint C3.

0.3El checkpoint C3 — Contexto mínimo viable

Sobre el Magallanes inflado, aplicarás el pipeline de adelgazamiento: medir, curar, pasar a just-in-time, domar los results y volver a medir. El entregable demuestra dos cosas a la vez. Que el contexto estático bajó un 50% o más. Y que la fiabilidad no empeoró.

Se evalúa por cinco dimensiones:

  1. Curación validada — consolidación justificada; accuracy de selección de herramienta antes y después.
  2. Calidad de definición — descripciones según los principios de diseño (consolidar, semántica sobre UUIDs, respuestas concisas).
  3. JIT correcto — referencias ligeras y carga bajo demanda; frontera upfront/JIT razonada por la tarea.
  4. Reducción medida — contexto estático −50% o más, con el desglose de tokens por partida.
  5. Fiabilidad preservada — el sweep de C0 no empeora; idealmente mejora.

El error más común es curar sin un eval de selección delante: optimizas la estética del catálogo, no la elección de la herramienta. La reducción no vale si el agente ya no puede hacer la tarea.

0.4Antes de empezar

  • Prerequisitos: N0 es imprescindible. El sweep que montaste en C0 es el baseline que C3 re-ejecuta y compara — sin él no hay con qué contrastar. Los niveles Palancas y compaction y Memoria son recomendados: en N2 aprendiste a sacar información del contexto (write); aquí decides qué entra (select).
  • El flag del lab: el nivel empieza activando lab_n3. Llegas a un Magallanes con 40 herramientas y la biblioteca entera en el prompt. Es la avería, no el sistema — el material que vas a curar.
  • La pregunta que gobierna el nivel: ¿cuántas herramientas son demasiadas? No hay número universal. GPT-4o es el más robusto en LongFuncEval: su degradación en accuracy apenas llega al 11–14% según el dataset, frente al 44–94% de otros modelos (LongFuncEval, may 2025). Mientras tanto, Llama 3.1 8b falla con 46 herramientas y acierta con 19, aunque las 46 caben en su ventana (Less is More, nov 2024). El umbral es de tu modelo con tu catálogo. Se mide.