Por fin la palabra del curso. El gradiente no es nada raro: es solo juntar todas las pendientes parciales en una lista. Pero tiene una propiedad mágica: apunta hacia donde el terreno sube más empinado.
En la lección 8, en el punto (3, 1) teníamos dos pendientes: 6 hacia el este y 2 hacia el norte. El gradiente es simplemente esas dos pendientes puestas juntas como una flecha (un vector):
∂/∂x = 2·3 = 6 ∂/∂y = 2·1 = 2 gradiente = ( 6 , 2 ) Léelo como una flecha: "6 hacia el este, 2 hacia el norte". Apunta más al este (6) que al norte (2), porque ahí sube más.
Se escribe con el símbolo ∇ (nabla): ∇f = (2x, 2y). No es más que "la lista de todas las pendientes parciales".
Y al revés — esto es lo que usaremos para aprender: el gradiente negativo (la flecha al contrario) apunta a la bajada más rápida, directo hacia el fondo del valle. Justo lo que quieres si el "valle" es el error y buscas minimizarlo.
Mueve el punto. La flecha turquesa es el gradiente (subida más empinada); la roja es su negativo (bajada hacia el fondo).
Una red neuronal tiene un "terreno" llamado función de error, pero no en 2 dimensiones: en millones (una por cada peso). No podemos verlo, pero el gradiente sigue funcionando igual: es la lista de todas las pendientes parciales, y apunta hacia donde el error sube más.