Un LLM no "piensa" ni "entiende". Solo hace una cosa: apostar por el siguiente carácter. Todo ChatGPT, todo GPT-4, toda la magia — se reduce a eso.
1. El juego del ahorcado al revés
Imagina que estás jugando al ahorcado, pero al revés: en lugar de adivinar letras que faltan en el medio, tienes que adivinar qué letra viene después de lo que ya ves.
Te muestran: k a r p a t h
¿Qué letra sigue? La mayoría de personas diría y. ¿Por qué? Porque han visto ese patrón antes. No saben por qué viene "y" — solo lo reconocen de haberlo leído.
Un modelo de lenguaje hace exactamente eso, pero con millones de ejemplos en lugar de tus años de lectura.
🃏 La analogía completa: Un loro muy entrenado que ha escuchado millones de conversaciones.
Cuando le dices "buenos...", el loro dice "días" porque eso es lo que más veces oyó después de "buenos".
No entiende qué es un día. Solo completó el patrón. Eso es, en esencia, un LLM.
Visualización · ¿Qué viene después?
El modelo no elige "y" al azar — calcula una probabilidad para cada uno de los 27 posibles siguientes caracteres y muestrea uno.
2. Predecir no es entender
Esta distinción importa mucho. Cuando un modelo genera "El cielo es azul", no sabe qué es el cielo, ni qué es el color azul. Sabe que en los textos que procesó, esa secuencia de palabras aparece con alta frecuencia.
❌ Lo que el modelo NO hace
Entender el significado de las palabras
Razonar sobre el mundo real
Memorizar respuestas correctas
Consultar una base de datos de hechos
✅ Lo que el modelo SÍ hace
Aprender patrones estadísticos en texto
Calcular probabilidades para el siguiente token
Generalizar a combinaciones no vistas
Capturar estructura implícita del lenguaje
Lo sorprendente es que aprender muy bien a predecir el siguiente token resulta ser suficiente para que emerja algo que parece comprensión. Pero eso es una consecuencia, no la causa.
🔑 La idea central de este curso: un modelo de lenguaje es un predictor de tokens muy sofisticado.
En nuestro caso, el token es un carácter (una letra). En modelos grandes como GPT-4, el token es un fragmento de palabra.
La mecánica es la misma.
3. Nuestro microgpt: nombres de personas
En lugar de entrenar con texto de internet, vamos a usar algo muchísimo más pequeño: 32.000 nombres de personas, uno por línea.
El modelo va a aprender a generar nombres que suenen reales, como "kamon", "liole", "areli", "karina". No son nombres del dataset — los inventó el modelo porque aprendió los patrones de cómo se forman los nombres.
Diagrama · El proceso completo en una imagen
El modelo aprende de nombres reales y genera nombres nuevos que no existían en el dataset.
🎮 Pruébalo: ¿qué viene después?
Escribe el inicio de un nombre. La demo te muestra los caracteres más probables según frecuencias reales del dataset de Karpathy.
1.0
Temperatura baja → el modelo es conservador, elige lo más probable. Alta → más aventurado.
Escribe algo arriba para ver las predicciones →
4. Lo que aprendiste
En esta lección:
Un modelo de lenguaje predice el siguiente token (en nuestro caso, carácter) dado los anteriores.
No "entiende" — aprende patrones estadísticos. El resultado puede parecer comprensión.
Nuestro microgpt va a aprender con 32.000 nombres y tendrá 3.808 parámetros.
El proceso es siempre el mismo: datos → entrenamiento → generación.