LECCIÓN 9

El gradiente

Por fin la palabra del curso. El gradiente no es nada raro: es solo juntar todas las pendientes parciales en una lista. Pero tiene una propiedad mágica: apunta hacia donde el terreno sube más empinado.

1. Juntar las pendientes en un vector

En la lección 8, en el punto (3, 1) teníamos dos pendientes: 6 hacia el este y 2 hacia el norte. El gradiente es simplemente esas dos pendientes puestas juntas como una flecha (un vector):

gradiente = ( ∂/∂x , ∂/∂y ) = ( 2x , 2y )
✍️ Gradiente en el punto (3, 1)
∂/∂x = 2·3 = 6     ∂/∂y = 2·1 = 2
gradiente = ( 6 , 2 )

Léelo como una flecha: "6 hacia el este, 2 hacia el norte".
Apunta más al este (6) que al norte (2), porque ahí sube más.

Se escribe con el símbolo ∇ (nabla): ∇f = (2x, 2y). No es más que "la lista de todas las pendientes parciales".

2. La propiedad mágica: apunta a la subida más empinada

El gradiente apunta en la dirección donde la función crece más rápido. Si estás en la ladera del valle y quieres subir lo más rápido posible, caminas en la dirección del gradiente. Su longitud dice qué tan empinada es esa subida.

Y al revés — esto es lo que usaremos para aprender: el gradiente negativo (la flecha al contrario) apunta a la bajada más rápida, directo hacia el fondo del valle. Justo lo que quieres si el "valle" es el error y buscas minimizarlo.

🎮 Mira la flecha del gradiente

Mueve el punto. La flecha turquesa es el gradiente (subida más empinada); la roja es su negativo (bajada hacia el fondo).

3.0
1.0

3. ¿Por qué importa tanto en IA?

Una red neuronal tiene un "terreno" llamado función de error, pero no en 2 dimensiones: en millones (una por cada peso). No podemos verlo, pero el gradiente sigue funcionando igual: es la lista de todas las pendientes parciales, y apunta hacia donde el error sube más.

Entrenar una red = ir en contra del gradiente del error, paso a paso, para bajar al fondo del valle (el error mínimo). Eso es el descenso de gradiente, y es exactamente la próxima lección.