LECCIÓN 5

Función de pérdida

Para que la red aprenda, primero hay que medir cuánto se equivoca con un solo número. Ese número es la pérdida (loss), y todo el entrenamiento consiste en hacerlo pequeño.

1. ¿Por qué necesitamos un número de error?

En la lección 4 la red predijo ŷ = 0.543 cuando el target era 1. Está mal, pero… ¿cuán mal? Necesitamos cuantificarlo. La función de pérdida compara la predicción con el target y devuelve un solo número:

Pérdida grande = la red se equivoca mucho. Pérdida pequeña = la red acierta. El objetivo del entrenamiento es minimizar la pérdida ajustando los pesos. Es la brújula que le dice a la red "vas bien" o "vas mal".

2. Error cuadrático medio (MSE)

La más intuitiva: la diferencia entre predicción y target, al cuadrado.

L = ½ · (ŷ − target)²

Para nuestro ejemplo x = (1, 0), con ŷ = 0.543014 y target = 1:

L = ½ · (ŷ - target)²

paso 1 — la resta (el error):
  ŷ - target = 0.543014 - 1 = -0.456986

paso 2 — elevar al cuadrado (error · error):
  (-0.456986)² = (-0.456986) · (-0.456986) = 0.208836

paso 3 — multiplicar por ½:
  ½ · 0.208836 = 0.5 · 0.208836 = 0.104418

3. Entropía cruzada (cross-entropy) — la de clasificación

Cuando la salida es una probabilidad (como con sigmoid), la pérdida preferida es la entropía cruzada binaria. Castiga con dureza estar muy seguro y equivocado.

L = −[ target · ln(ŷ) + (1 − target) · ln(1 − ŷ) ]
Como target = 1, el segundo término (1-target)·ln(1-ŷ) se anula
(porque 1-target = 0), y solo queda el primero:

L = -[ 1 · ln(ŷ) + 0 · ln(1-ŷ) ]
  = -ln(ŷ)

paso 1 — el logaritmo natural de ŷ:
  ln(0.543014) = -0.610621

paso 2 — el signo menos de delante:
  -(-0.610621) = 0.610621
💡 Si la red hubiera predicho 0.99 (casi seguro de "1", correcto), la cross-entropy sería −ln(0.99) ≈ 0.01 (mínima). Si predijera 0.01 (seguro de "0", ¡error grave!), sería −ln(0.01) ≈ 4.6 (enorme). Ese castigo desproporcionado al error confiado es lo que la hace excelente para clasificación.

4. Pérdida de TODO el dataset

Las fórmulas de arriba son para un ejemplo. La pérdida total del modelo es el promedio sobre los 4 casos de XOR:

xtargetŷMSE (½)Cross-entropy
(0,0)00.52940.1401110.753663
(0,1)10.53930.1061310.617520
(1,0)10.54300.1044180.610621
(1,1)00.55260.1526900.804329
Promedio →0.1258380.696533
La pérdida total de la red sin entrenar es 0.1258 (MSE). Ese es nuestro punto de partida. En las próximas lecciones la veremos bajar hacia ~0 a medida que la red aprende.

🎮 Juega con la predicción

Fija un target y mueve la predicción ŷ. Mira cómo crecen las dos pérdidas cuanto más te alejas.

0.54

5. La pérdida es una función de los pesos

Idea que enlaza con lo que viene: ŷ depende de los pesos, y la pérdida depende de ŷ. Por lo tanto, la pérdida es una función de los pesos. Entrenar = encontrar los pesos que la hacen mínima. ¿Cómo se busca ese mínimo sin probar al azar? Con el gradiente — la lección 6.