El destino de todo el curso. Si el gradiente apunta hacia arriba, para bajar al fondo del valle solo hay que ir al revés, paso a paso. Esto es, literalmente, cómo aprende una red neuronal.
Estás en la ladera del valle (x²+y²) y quieres llegar al fondo (el mínimo), pero con los ojos vendados. Solo puedes sentir la pendiente bajo tus pies — o sea, el gradiente. La estrategia es obvia: da un paso en la dirección contraria al gradiente (cuesta abajo) y repite.
El lr (learning rate, "tasa de aprendizaje") es el tamaño del paso. Lo eliges tú.
PASO 0: (x,y)=(3.000, 2.000) altura=13.000 gradiente = (2·3, 2·2) = (6, 4) x = 3 − 0.1·6 = 2.4 y = 2 − 0.1·4 = 1.6 PASO 1: (x,y)=(2.400, 1.600) altura=8.320 gradiente = (4.8, 3.2) x = 2.4 − 0.1·4.8 = 1.92 y = 1.6 − 0.1·3.2 = 1.28 PASO 2: (x,y)=(1.920, 1.280) altura=5.325 PASO 3: (x,y)=(1.536, 1.024) altura=3.408 PASO 4: (x,y)=(1.229, 0.819) altura=2.181 ... y así, acercándose cada vez más al fondo (0,0, altura 0)
La altura baja en cada paso: 13 → 8.3 → 5.3 → 3.4 → 2.2 → … El valor que minimizamos (la altura) disminuye. ¡Está "aprendiendo" a llegar al fondo!
Cambia el paso (lr) y observa. ¿Baja suave? ¿Rebota? ¿Se sale del valle? Ese es el arte de elegir el learning rate.
Prueba un lr grande (ej. 1.0): verás a la pelota rebotar o incluso alejarse — el paso es tan grande que se pasa de largo. Eso es un learning rate mal elegido.
peso = peso − lr · gradiente que aparece en
el curso de redes y en PyTorch. ¡Ya entiendes el corazón del aprendizaje automático!