LECCIÓN 6

Gradiente y descenso

Ya sabemos medir el error. Ahora: ¿cómo lo bajamos? Sin probar millones de combinaciones al azar. La respuesta es el gradiente, la herramienta más importante del aprendizaje automático.

1. La pérdida es un paisaje, y queremos el valle

Imagina la pérdida como una colina: en el eje horizontal, el valor de un peso; en el vertical, cuánto error produce. Entrenar es llegar al fondo del valle (la pérdida mínima). El problema: estás vendado, no ves el paisaje completo. Solo puedes sentir la pendiente bajo tus pies.

El gradiente es exactamente esa pendiente: te dice en qué dirección sube la pérdida y qué tan empinada es. Si quieres bajar, das un paso en la dirección opuesta al gradiente. Repítelo y llegarás al valle. Eso es el descenso de gradiente.

2. La derivada: la pendiente en un punto

El gradiente está hecho de derivadas. La derivada dL/dw responde: "si muevo este peso un poquito, ¿cuánto cambia la pérdida?".

En ambos casos la regla es la misma: muévete en sentido contrario a la derivada.

3. La regla de actualización (el corazón del entrenamiento)

wnuevo = wviejo − (learning rate) · (dL/dw)

Cada peso y cada bias de la red se actualizan con esta misma fórmula. En palabras:

"Nuevo peso = peso actual − un pasito en la dirección que reduce el error."

El learning rate (tasa de aprendizaje)

Es el tamaño del paso. Lo eliges tú (es un "hiperparámetro"):

  • Muy pequeño → bajas segurísimo pero lentísimo (miles de pasos).
  • Muy grande → das saltos enormes, rebotas por las paredes del valle y nunca te asientas (o explotas).
  • Justo → bajas rápido y estable. Encontrarlo es parte del arte.

🎮 La pelota que baja la colina

La curva es una pérdida de ejemplo. La pelota empieza arriba. Cada paso aplica w = w − lr · pendiente. Cambia el learning rate y observa: ¿baja suave, o rebota como loca?

0.30

4. Una red tiene MUCHOS pesos: el gradiente es un vector

Nuestra red XOR tiene 9 valores entrenables (4 + 2 en la capa oculta, 2 + 1 en la salida). La pérdida no depende de un solo peso sino de los 9 a la vez. El gradiente es la lista de las 9 derivadas: una dirección de bajada en un paisaje de 9 dimensiones.

Resumen: descenso de gradiente = repetir miles de veces { calcular el gradiente, dar un pasito hacia abajo }. Falta una pieza: ¿cómo se calculan esas derivadas en una red con capas? Esa es la joya de la corona — backpropagation, la lección 7, con todos los números de XOR.