🤖 · Curso 6 de 6 · Avanzado
Cómo funciona por dentro un Transformer — la arquitectura detrás de ChatGPT, Claude y los modelos de lenguaje modernos. De la tokenización a la atención multi-cabeza, desarmamos cada bloque hasta entender el pipeline completo.
Te recomendamos haber completado álgebra lineal, redes neuronales y al menos las primeras lecciones de PyTorch. Aquí cada bloque del Transformer se conecta con conceptos vistos antes.
Las 11 lecciones (+ 4 anexos opcionales con 🅑)
Texto → IDs. Cómo se prepara la entrada.
IDs → vectores con significado.
Cómo el ID se vuelve vector, paso a paso.
Cómo se inyecta el orden de las palabras.
Desarmando el PE visualmente.
Q, K, V — el corazón del Transformer.
La idea sin matemáticas. Empieza por aquí si la 04 te abruma.
Varias perspectivas en paralelo.
Procesamiento por token.
Por qué y para qué, sin matemáticas.
El pegamento estabilizador.
Apilando capas para hacer el modelo.
Cómo se elige la siguiente palabra.
Cómo se aprenden los pesos del modelo.
La película 3D: todo el flujo end-to-end. Cierre del curso.