LECCIÓN 9

El gradiente

Por fin la palabra del curso. El gradiente no es nada raro: es solo juntar todas las pendientes parciales en una lista. Pero tiene una propiedad mágica: apunta hacia donde el terreno sube más empinado.

Recuerda de la lección anterior: en un terreno con dos entradas (x, y), calculamos las derivadas parciales moviéndonos en una sola dirección a la vez. En el valle altura = x²+y², en el punto (3,1): la derivada parcial respecto a x fue ∂/∂x = 2x = 2·3 = 6 (pendiente al este), y respecto a y fue ∂/∂y = 2y = 2·1 = 2 (pendiente al norte). Hoy juntamos esas dos pendientes en un solo objeto.

1. Juntar las pendientes en un vector

Tenemos dos pendientes: 6 hacia el este y 2 hacia el norte. El gradiente es simplemente esas dos pendientes puestas juntas como una flecha (un vector):

gradiente = ( ∂/∂x , ∂/∂y ) = ( 2x , 2y )

✍️ Gradiente en el punto (3, 1)

∂/∂x = 2·3 = 6     ∂/∂y = 2·1 = 2
gradiente = ( 6 , 2 )

Léelo como una flecha: "6 hacia el este, 2 hacia el norte".
Apunta más al este (6) que al norte (2), porque ahí sube más.

Se escribe con el símbolo ∇ (llamado "nabla" — se pronuncia "nábla", y en contexto se lee "gradiente de f"). Es un triángulo invertido que los matemáticos eligieron como símbolo del gradiente. ∇f = (2x, 2y) se lee "el gradiente de f es (2x, 2y)". No es más que "la lista de todas las pendientes parciales".

2. La propiedad mágica: apunta a la subida más empinada

El gradiente apunta en la dirección donde la función crece más rápido. Si estás en la ladera del valle y quieres subir lo más rápido posible, caminas en la dirección del gradiente. Su longitud dice qué tan empinada es esa subida.

Comprobación numérica en el punto (3,1): el gradiente es (6,2). Dar un paso puro al este (solo x+1) sube 6. Dar un paso puro al norte (solo y+1) sube 2. Dar un paso en la dirección (6,2) normalizada sube incluso más que cualquier otro paso unitario — esa es la propiedad que el gradiente garantiza.

Y al revés — esto es lo que usaremos para aprender: el gradiente negativo (la flecha al contrario) apunta a la bajada más rápida, directo hacia el fondo del valle. Justo lo que quieres si el "valle" es el error y buscas minimizarlo.

🎮 Mira la flecha del gradiente

Mueve el punto. La flecha turquesa es el gradiente (subida más empinada); la roja es su negativo (bajada hacia el fondo).

este (x) 3.0

norte (y) 1.0

3. ¿Por qué importa tanto en IA?

Una red neuronal tiene un "terreno" llamado función de error, pero no en 2 dimensiones: en millones (una por cada peso). No podemos verlo, pero el gradiente sigue funcionando igual: es la lista de todas las pendientes parciales, y apunta hacia donde el error sube más.

Entrenar una red = ir en contra del gradiente del error, paso a paso, para bajar al fondo del valle (el error mínimo). Eso es el descenso de gradiente, y es exactamente la próxima lección.

4. Lo que aprendiste

Lo que aprendiste hoy: el gradiente (símbolo ∇, se lee "nábla") es la lista de todas las derivadas parciales juntadas en un vector. En el valle x²+y²: ∇f = (2x, 2y). En el punto (3,1): gradiente = (6,2) — apunta 6 al este y 2 al norte. La propiedad clave: el gradiente siempre apunta hacia la subida más empinada. Su negativo, hacia la bajada más rápida — que es exactamente la dirección que sigue una red para reducir su error.