🏠 ← Volver al laboratorio

🤖 · Curso 6 de 6 · Avanzado

Transformer paso a paso

Cómo funciona por dentro un Transformer — la arquitectura detrás de ChatGPT, Claude y los modelos de lenguaje modernos. De la tokenización a la atención multi-cabeza, desarmamos cada bloque hasta entender el pipeline completo.

📚 11 lecciones + 4 anexos ⏱ ~15h de lectura 🎯 Avanzado 🆓 Gratis
Es el último curso del laboratorio. Necesitas haber visto los anteriores — sobre todo álgebra lineal, redes neuronales y PyTorch. Las lecciones marcadas con "b" son anexos opcionales con la intuición visual sin matemáticas: úsalos cuando una lección principal se sienta densa.

📚 Antes de empezar

Te recomendamos haber completado álgebra lineal, redes neuronales y al menos las primeras lecciones de PyTorch. Aquí cada bloque del Transformer se conecta con conceptos vistos antes.

Las 11 lecciones (+ 4 anexos opcionales con 🅑)

01

Tokenización

Texto → IDs. Cómo se prepara la entrada.

02

Embeddings

IDs → vectores con significado.

2🅑

Mecánica del lookup

Cómo el ID se vuelve vector, paso a paso.

03

Positional Encoding

Cómo se inyecta el orden de las palabras.

3🅑

¿Por qué esa fórmula?

Desarmando el PE visualmente.

04

Self-Attention

Q, K, V — el corazón del Transformer.

4🅑

Self-Attention: intuición

La idea sin matemáticas. Empieza por aquí si la 04 te abruma.

05

Multi-Head Attention

Varias perspectivas en paralelo.

06

Feed-Forward Network

Procesamiento por token.

6🅑

FFN: intuición visual

Por qué y para qué, sin matemáticas.

07

Residual + LayerNorm

El pegamento estabilizador.

08

Stacking de bloques

Apilando capas para hacer el modelo.

09

Output / Softmax

Cómo se elige la siguiente palabra.

10

Entrenamiento

Cómo se aprenden los pesos del modelo.

🎬

Pipeline completo

La película 3D: todo el flujo end-to-end. Cierre del curso.

Empezar por la Lección 01 →