NIVEL 3 — Breadth profunda (curso completo)
Índice y guía · 4 tracks paralelizables · Checkpoints C3a–C3d
Cuarto nivel hoja por hoja. A diferencia de los anteriores, son cuatro tracks independientes: cada uno es un mini-curso con su teoría, labs con código completo y su propio checkpoint. No abras este nivel hasta tener C1 y C2a cerrados (la dispersión es el enemigo de la profundidad). Dentro del nivel, ordena los tracks por gravedad personal.
Meta del nivel: Nivel 3 (reproductor) en cada track — reproducir SOTA y razonar tradeoffs. Si un track te engancha hasta llegar a Nivel 4 (innovador), considera moverlo al spine: la motivación es señal.
Los cuatro tracks
| Documento | Track | Checkpoint | Por qué importa |
|---|---|---|---|
N3_A_kernels.md | A. Kernels CUDA / Triton | C3a | entender lo que pasa bajo PyTorch; perfil "Tri Dao" |
N3_B_interpretabilidad.md | B. Interpretabilidad mecanicista | C3b | entender por qué el modelo hace lo que hace |
N3_C_difusion.md | C. Difusión (imagen + policies) | C3c | matemática propia (flow matching); imagen y robótica |
N3_D_audio_longcontext.md | D. Audio + long-context | C3d | STT moderno + RAG/long-context evaluados |
Prerrequisitos
- C1 y C2a cerrados. Lente roofline (N0·L1) imprescindible para el track A.
Checkpoints (resumen)
- C3a: un kernel Triton tuyo que gana al baseline PyTorch en la 5090 en una op memory-bound, perfilado, con el por qué.
- C3b: SAE entrenado + feature monosemántica + intervención causal verificable; reproducir el circuito IOI.
- C3c: un FLUX LoRA de calidad + una diffusion policy (LeRobot) que alcanza un success-rate objetivo.
- C3d: pipeline STT+diarización con WER/DER medidos + RAG long-context evaluado con RULER.
Método
- Dos pases (reproducir → reconstruir) como en todo el curso.
- Cada track tiene un reto genérico y reutilizable (no ligado a proyectos).
- Lab notebook por experimento (plantilla
08).