LECCIÓN 5

Función de pérdida

Para que la red aprenda, primero hay que medir cuánto se equivoca con un solo número. Ese número es la pérdida (loss), y todo el entrenamiento consiste en hacerlo pequeño.

Recuerda de la lección anterior: el forward pass de XOR con entrada (1,0) produce ŷ = 0.543 — la predicción de la red. El target correcto es 1. La red no sabe nada aún porque sus pesos son inventados. Hoy aprendemos a medir ese error con un número.

1. ¿Por qué necesitamos un número de error?

En la lección 4 la red predijo ŷ = 0.543 cuando el target era 1. Está mal, pero… ¿cuán mal? Necesitamos cuantificarlo. La función de pérdida compara la predicción con el target y devuelve un solo número:

Pérdida grande = la red se equivoca mucho. Pérdida pequeña = la red acierta. El objetivo del entrenamiento es minimizar la pérdida ajustando los pesos. Es la brújula que le dice a la red "vas bien" o "vas mal".

2. Error cuadrático medio (MSE)

La más intuitiva: la diferencia entre predicción y target, al cuadrado.

L = ½ · (ŷ − target)²

Para nuestro ejemplo x = (1, 0), con ŷ = 0.543014 y target = 1:

L = ½ · (ŷ - target)²

paso 1 — la resta (el error):
  ŷ - target = 0.543014 - 1 = -0.456986

paso 2 — elevar al cuadrado (error · error):
  (-0.456986)² = (-0.456986) · (-0.456986) = 0.208836

paso 3 — multiplicar por ½:
  ½ · 0.208836 = 0.5 · 0.208836 = 0.104418

El cuadrado hace que el error siempre sea positivo y castiga más los errores grandes.
El ½ es un truco matemático: en la lección 7 necesitaremos calcular cómo cambia L cuando cambiamos los pesos (eso se llama "derivar"). Al hacerlo, el 2 del cuadrado y el ½ se cancelan mutuamente — las cuentas quedan más limpias. No necesitas entenderlo ahora; solo recuerda que el ½ está ahí por conveniencia.

3. Entropía cruzada (cross-entropy) — la de clasificación

Cuando la salida es una probabilidad (como con sigmoid), la pérdida preferida es la entropía cruzada binaria. ¿Por qué el logaritmo? Porque cuando la red está muy segura y se equivoca, queremos castigarla mucho más que cuando duda. El logaritmo natural (escrito ln) tiene exactamente esa propiedad: cuando ŷ es 0.99 (muy segura de "1"), ln(0.99) ≈ −0.01 (pequeño castigo); cuando ŷ es 0.01 (muy segura del valor incorrecto), ln(0.01) ≈ −4.6 (castigo enorme). El logaritmo magnifica el error de la confianza equivocada.

🤔 La fórmula que sigue puede parecer complicada. Quédate con la intuición: penaliza más cuando la red está muy segura y se equivoca. Los números del cálculo te mostrarán que funciona.

L = −[ target · ln(ŷ) + (1 − target) · ln(1 − ŷ) ]

Como target = 1, el segundo término (1-target)·ln(1-ŷ) se anula
(porque 1-target = 0), y solo queda el primero:

L = -[ 1 · ln(ŷ) + 0 · ln(1-ŷ) ]
  = -ln(ŷ)

paso 1 — el logaritmo natural de ŷ:
  ln(0.543014) = -0.610621

paso 2 — el signo menos de delante:
  -(-0.610621) = 0.610621

💡 Si la red hubiera predicho 0.99 (casi seguro de "1", correcto), la cross-entropy sería −ln(0.99) ≈ 0.01 (mínima). Si predijera 0.01 (seguro de "0", ¡error grave!), sería −ln(0.01) ≈ 4.6 (enorme). Ese castigo desproporcionado al error confiado es lo que la hace excelente para clasificación.

4. Pérdida de TODO el dataset

Las fórmulas de arriba son para un ejemplo. La pérdida total del modelo es el promedio sobre los 4 casos de XOR:

x	target	ŷ	MSE (½)	Cross-entropy
(0,0)	0	0.5294	0.140111	0.753663
(0,1)	1	0.5393	0.106131	0.617520
(1,0)	1	0.5430	0.104418	0.610621
(1,1)	0	0.5526	0.152690	0.804329
Promedio →			0.125838	0.696533

La pérdida total de la red sin entrenar es 0.1258 (MSE). Ese es nuestro punto de partida. En las próximas lecciones la veremos bajar hacia ~0 a medida que la red aprende.

🎮 Juega con la predicción

Fija un target y mueve la predicción ŷ. Mira cómo crecen las dos pérdidas cuanto más te alejas.

ŷ0.54

5. Lo que aprendiste

Lo que aprendiste hoy: la función de pérdida convierte "cuánto se equivoca la red" en un único número que la red intentará minimizar. El MSE (½·(ŷ−target)²) penaliza el error cuadráticamente. La entropía cruzada (−ln(ŷ)) penaliza más cuando la red está muy segura y se equivoca. Con la red sin entrenar, la pérdida MSE promedio es 0.1258.

El enlace con lo que viene: ŷ depende de los pesos, y la pérdida depende de ŷ → la pérdida es una función de los pesos. Entrenar = encontrar los pesos que la hacen mínima. ¿Cómo sin probar al azar? Con el gradiente — la lección 6.