GRPO hands-on: reproducir el "aha moment" (Checkpoint C2b·a) · SEXTANTE

SEXTANTEcursos técnicos de IA

01 Inicio 02 Cursos

BancoRTX 5090 · GB202

Rev2026.06

De Tech Lead a IA Engineer de percentil top

Progresoinicia sesión

L0 NIVEL 0 — Fundamentos verificables sobre Blackwell (curso completo)L1 La GPU como máquina física: el modelo Roofline L2 El stack Blackwell (sm_120) sano L3 El presupuesto de VRAM: qué cabe en 32 GB L4 Tu benchmark de referencia (entregable de C0)

L0 NIVEL 1 — Serving / inferencia world-class (curso completo)L1 Métricas, PagedAttention y continuous batching L2 Tuning de vLLM: cerrar el gap conscientemente L3 Speculative decoding: acelerar el decode sin perder calidad L4 Cuantización para serving: FP8, AWQ y NVFP4 L5 SGLang y RadixAttention: cuándo NO usar vLLM L6 Multi-LoRA serving (y cierre del Checkpoint C1)

L0 NIVEL 2 — Post-training + RL para agentes ★ SPINE PRINCIPAL ★L1 Mapa del post-training: qué etapa para qué L2 PEFT: LoRA, QLoRA, DoRA (y Checkpoint C2a)L3 Datos y SFT: el 80% del resultado está aquí L4 Preference optimization: DPO, SimPO, KTO L5 Reward modeling y cuándo lo necesitas L6 De policy gradient a GRPO (el corazón teórico)L7 GRPO hands-on: reproducir el "aha moment" (Checkpoint C2b·a)L8 RL agéntico verificable + evaluación rigurosa (cierra C2)

L0 NIVEL 3 — Breadth profunda (curso completo)A Kernels CUDA / Triton (Checkpoint C3a)B Interpretabilidad mecanicista (Checkpoint C3b)C Difusión: imagen y policies (Checkpoint C3c)D Audio + long-context (Checkpoint C3d)

L0 NIVEL 4 — World models (curso completo)L1 Las tres familias de world models L2 V-JEPA 2: representaciones predictivas (Checkpoint C4·a)L3 DIAMOND (diffusion WM) + DreamerV3 (MBRL) · Checkpoint C4·b L4 Mundos interactivos: Oasis y Cosmos (stretch)

L0 NIVEL 5 — Pretraining desde cero + arquitecturas (curso completo)L1 Backprop y atención desde cero L2 Un GPT desde cero + nanoGPT L3 Reproducir GPT-2 124M en tu 5090 (Checkpoint C5·a)L4 Mamba-2 y state-space models (Checkpoint C5·b)L5 MoE desde cero + híbridos de frontera (cierre del curso)

Checkpoints · 0/10

C0

C1

C2a

C2b

C3a

C3b

C3c

C3d

C4

C5

N2 · Post-training + RL/L7

Comprobando tu progreso…