Ya sabemos medir el error. Ahora: ¿cómo lo bajamos? Sin probar millones de combinaciones al azar. La respuesta es el gradiente, la herramienta más importante del aprendizaje automático.
Imagina la pérdida como una colina: en el eje horizontal, el valor de un peso; en el vertical, cuánto error produce. Entrenar es llegar al fondo del valle (la pérdida mínima). El problema: estás vendado, no ves el paisaje completo. Solo puedes sentir la pendiente bajo tus pies.
El gradiente está hecho de derivadas. La derivada dL/dw responde:
"si muevo este peso un poquito, ¿cuánto cambia la pérdida?".
w sube la pérdida → hay que bajar w.w baja la pérdida → hay que subir w.En ambos casos la regla es la misma: muévete en sentido contrario a la derivada.
Cada peso y cada bias de la red se actualizan con esta misma fórmula. En palabras:
"Nuevo peso = peso actual − un pasito en la dirección que reduce el error."
Es el tamaño del paso. Lo eliges tú (es un "hiperparámetro"):
La curva es una pérdida de ejemplo. La pelota empieza arriba. Cada paso aplica
w = w − lr · pendiente. Cambia el learning rate y observa: ¿baja suave, o rebota como
loca?
Nuestra red XOR tiene 9 valores entrenables (4 + 2 en la capa oculta, 2 + 1 en la salida). La pérdida no depende de un solo peso sino de los 9 a la vez. El gradiente es la lista de las 9 derivadas: una dirección de bajada en un paisaje de 9 dimensiones.