Tip:
Highlight text to annotate it
X
En el video anterior, que dio
una definición matemática de descenso de gradiente.
Vamos a ir más profundo, y en este
video se ve mejor intuición sobre
lo que el algoritmo está haciendo,
y por qué los pasos de la
algoritmo de pendiente de descenso podría tener sentido.
Aquí está el algoritmo de gradiente descendente que
nos vimos la última vez y
Acabo de recordar, este
parámetro, o este término
alfa, que se llama el aprendizaje
tarifa, y los controles
cuán grande es un paso que
tomar la hora de actualizar mi parámetro
theta j y este
segundo término aquí es el término derivado.
Y lo que quiero hacer, en
este video, se le dará
acerca de lo que cada uno de
estos dos términos está haciendo, y
Por eso, cuando se ponen juntos, esta actualización de todo tiene sentido.
Con el fin de transmitir estos
intuiciones, lo que quiero
que hacer es usar un poco
ejemplo sencillo en el que
desea minimizar una función
de un solo parámetro, por lo que
tienen una función de coste
j solo parámetro theta de una
uno, como lo hicimos unos cuantos
videos de atrás, donde theta
se trata de un bien número real.
Por lo tanto, podemos tener las parcelas 1d, que son bastante simples a la vista.
Vamos a tratar de entender lo que va a hacer descenso de gradiente sobre esta función.
Por lo tanto, vamos a decir aquí está
mi función de j
theta, y eso es
mi y donde theta
uno es un número real.
¿No?
Gradiente de ahora, vamos a inicializar
descenso con una teta
en este lugar, así que imagina
que nos pusimos en marcha en ese momento de mi función.
¿Qué va a hacer descenso de gradiente
se va a actualizar una teta.
Vamos a actualizar a esta, theta
uno menos alfa veces dd
theta una j de una teta.
¿No? Y
como en el lado este término derivado, ¿verdad?
Y si usted se está preguntando
¿por qué he cambiado la notación de estos símbolos derivada parcial.
Si usted no sabe cuál es la diferencia
Es entre estos símbolos derivada parcial
y la theta DD, no te preocupes por eso.
Técnicamente, en matemáticas, que llamamos
este derivado de una visión parcial, que llamamos
este derivado, dependiendo de
el número de parámetros en
la función de 'J', pero que
tecnicismos matemáticos, así que para
con el propósito de esta conferencia que
de estos símbolos parciales y
gd theta una mayor exactitud
la misma cosa y no te preocupes si hay diferencias.
Voy a tratar de utilizar la notación matemática precisa.
Pero para nuestros propósitos, anotaciones DC son realmente la misma cosa.
Así que vamos a ver lo que esta ecuación es suficiente.
Por lo tanto, vamos a calcular esta derivada.
No estoy seguro de si
usted ha visto los derivados en el cálculo anterior,
pero lo que es un derivado de
en este momento lo hace, es básicamente
por ejemplo, tomemos el
tangente a ese punto, que
línea recta, la línea roja es sólo tocar esta función.
Echemos un vistazo a la pendiente de esta línea roja.
Eso es lo que es la derivada.
Se dice, ¿cuál es la pendiente
De la línea que es tangente a la función.
Aceptar y, a la pendiente de
la línea, por supuesto, es justo,
esta altura dividido por esta cosa horizontal.
Ahora esta línea tiene una pendiente positiva.
Por lo tanto, tiene un efecto positivo
derivados, y así
mi actualización a theta es
Va a ser una teta
se actualiza como una teta
menos alfa veces algún número positivo.
Alpha, la tasa de aprendizaje, es
siempre un número positivo, y
así que me voy a tomar teta
da una actualización como theta
un algo negativo, por lo que estoy
va a terminar en movimiento una teta a la izquierda.
Vamos a disminuir theta 1,
y podemos ver este
es lo que hay que hacer, porque
como desee a la cabeza en esa dirección
para que me más cerca de los mínimos allí.
Así gradiente de descenso, hasta el momento, parece estar haciendo lo correcto.
Veamos otro ejemplo.
Así que vamos a llevar a mi misma función
J de la theta
uno y ahora vamos a decir
Tuve a mi vez inicializado el parámetro de allí a la izquierda.
Así theta está aquí, me voy a adaptar punto de la superficie.
Ahora, mi término derivado, DD
Theta 1, J de la theta
1, cuando se evalúa a la
este punto, vamos a ver
en la pendiente
de esa línea, por lo que este
término derivado es un pendiente de esta línea.
Sin embargo, esta línea se inclina hacia abajo.
Por lo que esta línea tiene pendiente negativa.
Derecha.
O, alternativamente, podría
decir que esta función tiene un
derivada negativa (lo cual significa una pendiente negativa) en ese punto.
Así que esta es menor o igual a cero.
Así que cuando me actualice Theta,
Theta se actualiza a medida
Theta menos veces un Alfa
número negativo.
Así que tengo una teta
menos un número negativo, lo que
significa de hecho voy a
aumento de los datos, bien porque
esto es menos, de un resultado negativo
número, lo que significa que estoy añadiendo
algo con los datos, y lo que
que quiere decir es que me voy
al final de los datos cada vez mayor, y
así que vamos a empezar aquí y aumentar
theta, que de nuevo parece
como lo que yo quería
hacer, para tratar de conseguir
me acerca a la mínima.
Así que esperamos que esto explica la
intuición detrás de lo que el
término derivado está haciendo,
vamos a echar un vistazo al lado
a los tipos de aprendizaje a partir de alfa,
y tratar de averiguar lo que está haciendo.
Por lo tanto, aquí está mi teta
regla de descendencia de actualización, a la derecha, es
esta ecuación, así que vamos a
vistazo a lo que puede
pasaría si alfa es tanto
demasiado pequeño, o alfa es demasiado grande.
Por lo que este primer ejemplo, ¿qué pasa si alpha es demasiado.
Así que aquí está mi función J
- J de la theta.
Digamos que comenzar aquí.
Si es demasiado pequeño alfa, entonces
lo que voy a hacer es multiplicar
mi actualización por un número pequeño,
por lo que acaban de tomar un pequeño paso por el estilo.
Ok?
Así que eso es un paso que ya hemos dicho.
Entonces, desde este nuevo punto que estoy
va a dar un paso más, pero si
alfa es muy pequeña me
tomar otro bebé
paso y por lo tanto
si mi tipo de préstamo es demasiado
pequeñas, que voy a
terminan tomando estos pequeños,
pequeños pasos de bebé, para tratar de
para llegar al mínimo, y estoy
va a necesitar un montón de pasos
para llegar al mínimo, y así
si es demasiado pequeño alfa, el gradiente
descenso puede ser lento porque estoy
sólo va a tener estos pequeños pequeños,
pasos de bebé, por lo que está pasando
a necesitar un montón de pasos
antes de que llegue en cualquier lugar cerca del mínimo local.
Ahora, ¿qué tal si también alfa de gran tamaño?
Así que aquí está mi J función de theta.
Resulta que, si alfa es demasiado
grande, entonces pendiente de descenso
puede sobrepasar el mínimo y el
aún no convergen,
o incluso divergentes, así que aquí está lo que quiero decir.
Digamos que comenzar theta se que está muy cerca del mínimo.
Por lo tanto los puntos derivados de la
bien, pero si alfa
demasiado grande, voy a
dar un paso enorme - un gran paso así.
Así que voy a terminar dando un paso enorme.
Y ahora mi función de coste es realmente conseguido
peor porque yo comienzo con
este valor, pero ahora, mi valor en realidad empeoraron.
Ahora mi derivados, ya sabes,
puntos a la izquierda y dice que debería disminuir de datos.
Pero si mi tasa de préstamo es
demasiado grande, que puede tomar un
gran paso que va de aquí hasta el final hacia fuera allí.
Así que me acaban de salir
allí, a la derecha, y si
mi tipo de préstamo es demasiado grande
Me puede dar un paso enorme en la
la aceleración que viene, tipo de
el exceso, y el exceso, y
así sucesivamente, hasta que te darás cuenta de
Me estoy poniendo más y más
lejos de la mínima.
Y así, si es demasiado grande alfa
puede no convergen o divergen aún.
Ahora, tengo otra pregunta para usted.
Así que este es un asunto delicado
, y cuando yo era
primero aprender estas cosas, realmente me tomó mucho tiempo para resolver esto.
Pero ¿y si el parámetro alpha
uno ya está en el mínimo local?
¿Qué te parece un paso de la gradiente de descenso va a hacer?
Por lo tanto, vamos a suponer que usted
inicializar una teta en un mínimo local.
Así que supongo que esto es
su valor inicial de una teta
por aquí, y es
ya en un óptimo local, el mínimo local.
Depende del óptimo local, su
derivados será igual
cero, por lo que cuesta que
punto de tangencia por lo que el
pendiente de esta línea
será igual al
cero y, por lo tanto, este
término derivado es igual a cero.
Y así, en el gradiente
actualización de descenso, tiene theta (1)
se actualiza a medida theta (1) menos
alfa veces 0.
Y así, lo que esto significa
es que, si usted ya está
en un óptimo local, que deja
theta (1) sin cambios, ya que
ver como se actualiza theta (1) es igual a theta (1).
Por lo tanto, si los parámetros
ya se encuentran en un mínimo local,
un paso de la gradiente de descenso no hace absolutamente nada.
No cambia el parámetro,
que es lo que quieren porque
mantiene su solución en
el óptimo local.
Esto también explica por qué el descenso de gradiente
puede converger a mínimos locales
incluso con la tasa de aprendizaje alfa fijo.
Esto es lo que quiero decir con esto.
Veamos un ejemplo.
Por lo tanto, he aquí una función de coste
J, o theta, que tal vez desea minimizar.
Y digamos que inicializar
mi algoritmo, la gradación que yo
descenso algoritmo de allí, en ese momento magenta.
si doy un paso de gradiente
descenso, tal vez me tome
a ese punto, porque mi derivados es bastante fuerte por ahí, ¿verdad?
Ahora, estoy en este
punto verde, y si
Yo dar un paso más en verde
descenso se dará cuenta de mi
derivados, es decir, la pendiente
es menos pronunciada en el
punto verde en comparación con
en el punto de magenta que hay.
Porque como me acerco a la
mínimo, derivado de mi más cerca
y más cerca de cero como
Me acerco a la mínima.
Así que, después de un paso de
gradiente de descenso, mi nuevo derivado
es un poco más pequeño, así que cuando
Me da otro paso de gradiente
descenso, que naturalmente,
un pequeño paso de
este punto verde hasta el punto de color magenta.
Ahora desde el punto nuevo en el punto rojo.
Ahora estoy aún más a la
mínimo, por lo que el derivado de aquí
será aún más pequeño de lo que era en el punto verde.
Así que quiero dar un paso más de la gradiente de descenso.
Ahora, mi término derivado es aún menor.
Y así, la magnitud de la
actualización de una teta
Es incluso más pequeño a fin de tomar una
pequeños pasos como tal, y como
gradiente descendente corre usted
automáticamente tomar más pequeños y
pequeños pasos hasta que finalmente
está tomando pasos muy pequeños,
ya sabes, y te encuentras con la
la conversión a la, hasta el mínimo local.
Por lo tanto, sólo para recapitular, en
gradiente de descenso, cuando nos acercamos a
un mínimo local, descenso de gradiente
automáticamente tomar pasos más pequeños,
y eso es porque a medida que nos acercamos a
el mínimo local, por definición,
el mínimo local es cuando se
sabemos que hay derivados igual a cero.
Así que cuando nos acercamos al mínimo local
este término derivado automáticamente
se hacen más pequeños y así
gradiente de descenso de forma automática se
pasos más pequeños, por lo que este
es lo que parece gradiente de descenso,
y lo que en realidad no hay necesidad
para disminuir la alfa en el tiempo.
Así que esa es la pendiente
algoritmo de descenso, y se puede
lo utilizan para reducir al mínimo, para tratar de
para minimizar cualquier J función de costos,
no la función de costo J se define a partir de la regresión lineal.
En el siguiente video, vamos
para tomar la J y la función
conjunto que vuelve a ser
de regresión lineal con exactitud la función de coste,
la función de costo cuadrados que
ocurrió con las anteriores, y teniendo
pendiente de descenso y el costo cuadrados
función y ponerlos juntos, 329 00:11:45,080 -> 00:11:48,077 que nos dará nuestro algoritmo de aprendizaje de primera.
Que nos dará nuestro algoritmo de regresión lineal.