🌿 · Curso 7 de 7 · Avanzado aplicado

Del gigante al útil

Los modelos de lenguaje preentrenados son increíbles — pero demasiado grandes, demasiado genéricos y demasiado caros para correr. En este curso aprendes las técnicas que usan los equipos de IA reales para adaptarlos, comprimirlos y hacerlos útiles en cualquier tarea.

📚 15 lecciones ⏱ ~15h de lectura 🎯 Avanzado aplicado 🆓 Gratis

Lo que aprenderás: cómo acceder a miles de modelos con HuggingFace, adaptarlos a tu tarea con fine-tuning, hacerlo sin GPU con LoRA y QLoRA, comprimir el modelo con cuantización y pruning, y enseñarle a un modelo pequeño usando uno grande (destilación). Todo explicado desde cero, con ejemplos numéricos concretos y código real.

📚 Antes de empezar

Este curso asume que completaste los 6 cursos anteriores del laboratorio. En particular necesitarás: álgebra lineal (LoRA usa descomposición de matrices), el gradiente (para entender por qué fine-tuning es caro), PyTorch (el código usa PyTorch y HuggingFace) y Transformer (para entender los bloques del modelo que adaptamos).

📦 Bloque 1 · El ecosistema (lecciones 01–04)

¿Qué es HuggingFace?

El mercado de modelos preentrenados y sus tres componentes: models, tokenizers, datasets.

→ 02

Inferencia lista para usar

pipeline() — clasificar, resumir, traducir y generar sin entrenar nada.

→ 03

Tokenizers modernos

BPE real con la librería tokenizers, padding, truncation, attention mask.

→ 04

El problema central

Por qué el modelo sabe mucho pero no lo que tú necesitas. Pre-entrenamiento vs fine-tuning vs instrucción.

→

🔧 Bloque 2 · Fine-tuning (lecciones 05–08)

Fine-tuning completo

La idea, el coste, cuándo tiene sentido. Forward + backward por todos los parámetros.

→ 06

Dataset y preparación

Dataset de HuggingFace, DataCollator, splits, formatos de instrucción.

→ 07

Trainer API

Entrenar sin escribir el bucle a mano. TrainingArguments, callbacks, checkpoints.

→ 08

Evaluación y métricas

accuracy, F1, perplexity. Cómo saber si el fine-tuning funcionó — y si sobreentrenó.

→

⚡ Bloque 3 · Ajuste eficiente — PEFT (lecciones 09–11)

Por qué fine-tuning es caro

Cuánta memoria ocupa el modelo, los gradientes y el optimizador. La motivación para PEFT.

→ 10

LoRA

Descomposición de rango bajo — el atajo de álgebra lineal. Solo se entrenan dos matrices pequeñas.

→ 11

QLoRA y PEFT en práctica

Combinar LoRA con cuantización. Fine-tuning de un LLM real en Google Colab.

→

🗜️ Bloque 4 · Compresión (lecciones 12–13)

Cuantización

De float32 (4 bytes/peso) a int4 (1 byte). Qué se pierde, qué se gana. Cálculo numérico paso a paso.

→ 13

Pruning y compresión

Eliminar pesos pequeños o neuronas enteras. Relación con autovalores y rango de la matriz.

→

🎓 Bloque 5 · Destilación y proyecto final (lecciones 14–15)

Knowledge distillation

El maestro y el alumno. Soft labels vs hard labels. DistilBERT como caso real.

→ 🏁

Proyecto final

Pipeline completo: descargar, fine-tunear con LoRA, cuantizar a int4, evaluar y deployar.

→

Empezar por la Lección 01 →