Machine Learning - Stanford - Gradiente de descenso - Español

En el video anterior, que dio una definición matemática de descenso de gradiente. Vamos a ir más profundo, y en este video se ve mejor intuición sobre lo que el algoritmo está haciendo, y por qué los pasos de la algoritmo de pendiente de descenso podría tener sentido. Aquí está el algoritmo de gradiente descendente que nos vimos la última vez y Acabo de recordar, este parámetro, o este término alfa, que se llama el aprendizaje tarifa, y los controles cuán grande es un paso que tomar la hora de actualizar mi parámetro theta j y este segundo término aquí es el término derivado. Y lo que quiero hacer, en este video, se le dará acerca de lo que cada uno de estos dos términos está haciendo, y Por eso, cuando se ponen juntos, esta actualización de todo tiene sentido. Con el fin de transmitir estos intuiciones, lo que quiero que hacer es usar un poco ejemplo sencillo en el que desea minimizar una función de un solo parámetro, por lo que tienen una función de coste j solo parámetro theta de una uno, como lo hicimos unos cuantos videos de atrás, donde theta se trata de un bien número real. Por lo tanto, podemos tener las parcelas 1d, que son bastante simples a la vista. Vamos a tratar de entender lo que va a hacer descenso de gradiente sobre esta función. Por lo tanto, vamos a decir aquí está mi función de j theta, y eso es mi y donde theta uno es un número real. ¿No? Gradiente de ahora, vamos a inicializar descenso con una teta en este lugar, así que imagina que nos pusimos en marcha en ese momento de mi función. ¿Qué va a hacer descenso de gradiente se va a actualizar una teta. Vamos a actualizar a esta, theta uno menos alfa veces dd theta una j de una teta. ¿No? Y como en el lado este término derivado, ¿verdad? Y si usted se está preguntando ¿por qué he cambiado la notación de estos símbolos derivada parcial. Si usted no sabe cuál es la diferencia Es entre estos símbolos derivada parcial y la theta DD, no te preocupes por eso. Técnicamente, en matemáticas, que llamamos este derivado de una visión parcial, que llamamos este derivado, dependiendo de el número de parámetros en la función de 'J', pero que tecnicismos matemáticos, así que para con el propósito de esta conferencia que de estos símbolos parciales y gd theta una mayor exactitud la misma cosa y no te preocupes si hay diferencias. Voy a tratar de utilizar la notación matemática precisa. Pero para nuestros propósitos, anotaciones DC son realmente la misma cosa. Así que vamos a ver lo que esta ecuación es suficiente. Por lo tanto, vamos a calcular esta derivada. No estoy seguro de si usted ha visto los derivados en el cálculo anterior, pero lo que es un derivado de en este momento lo hace, es básicamente por ejemplo, tomemos el tangente a ese punto, que línea recta, la línea roja es sólo tocar esta función. Echemos un vistazo a la pendiente de esta línea roja. Eso es lo que es la derivada. Se dice, ¿cuál es la pendiente De la línea que es tangente a la función. Aceptar y, a la pendiente de la línea, por supuesto, es justo, esta altura dividido por esta cosa horizontal. Ahora esta línea tiene una pendiente positiva. Por lo tanto, tiene un efecto positivo derivados, y así mi actualización a theta es Va a ser una teta se actualiza como una teta menos alfa veces algún número positivo. Alpha, la tasa de aprendizaje, es siempre un número positivo, y así que me voy a tomar teta da una actualización como theta un algo negativo, por lo que estoy va a terminar en movimiento una teta a la izquierda. Vamos a disminuir theta 1, y podemos ver este es lo que hay que hacer, porque como desee a la cabeza en esa dirección para que me más cerca de los mínimos allí. Así gradiente de descenso, hasta el momento, parece estar haciendo lo correcto. Veamos otro ejemplo. Así que vamos a llevar a mi misma función J de la theta uno y ahora vamos a decir Tuve a mi vez inicializado el parámetro de allí a la izquierda. Así theta está aquí, me voy a adaptar punto de la superficie. Ahora, mi término derivado, DD Theta 1, J de la theta 1, cuando se evalúa a la este punto, vamos a ver en la pendiente de esa línea, por lo que este término derivado es un pendiente de esta línea. Sin embargo, esta línea se inclina hacia abajo. Por lo que esta línea tiene pendiente negativa. Derecha. O, alternativamente, podría decir que esta función tiene un derivada negativa (lo cual significa una pendiente negativa) en ese punto. Así que esta es menor o igual a cero. Así que cuando me actualice Theta, Theta se actualiza a medida Theta menos veces un Alfa número negativo. Así que tengo una teta menos un número negativo, lo que significa de hecho voy a aumento de los datos, bien porque esto es menos, de un resultado negativo número, lo que significa que estoy añadiendo algo con los datos, y lo que que quiere decir es que me voy al final de los datos cada vez mayor, y así que vamos a empezar aquí y aumentar theta, que de nuevo parece como lo que yo quería hacer, para tratar de conseguir me acerca a la mínima. Así que esperamos que esto explica la intuición detrás de lo que el término derivado está haciendo, vamos a echar un vistazo al lado a los tipos de aprendizaje a partir de alfa, y tratar de averiguar lo que está haciendo. Por lo tanto, aquí está mi teta regla de descendencia de actualización, a la derecha, es esta ecuación, así que vamos a vistazo a lo que puede pasaría si alfa es tanto demasiado pequeño, o alfa es demasiado grande. Por lo que este primer ejemplo, ¿qué pasa si alpha es demasiado. Así que aquí está mi función J - J de la theta. Digamos que comenzar aquí. Si es demasiado pequeño alfa, entonces lo que voy a hacer es multiplicar mi actualización por un número pequeño, por lo que acaban de tomar un pequeño paso por el estilo. Ok? Así que eso es un paso que ya hemos dicho. Entonces, desde este nuevo punto que estoy va a dar un paso más, pero si alfa es muy pequeña me tomar otro bebé paso y por lo tanto si mi tipo de préstamo es demasiado pequeñas, que voy a terminan tomando estos pequeños, pequeños pasos de bebé, para tratar de para llegar al mínimo, y estoy va a necesitar un montón de pasos para llegar al mínimo, y así si es demasiado pequeño alfa, el gradiente descenso puede ser lento porque estoy sólo va a tener estos pequeños pequeños, pasos de bebé, por lo que está pasando a necesitar un montón de pasos antes de que llegue en cualquier lugar cerca del mínimo local. Ahora, ¿qué tal si también alfa de gran tamaño? Así que aquí está mi J función de theta. Resulta que, si alfa es demasiado grande, entonces pendiente de descenso puede sobrepasar el mínimo y el aún no convergen, o incluso divergentes, así que aquí está lo que quiero decir. Digamos que comenzar theta se que está muy cerca del mínimo. Por lo tanto los puntos derivados de la bien, pero si alfa demasiado grande, voy a dar un paso enorme - un gran paso así. Así que voy a terminar dando un paso enorme. Y ahora mi función de coste es realmente conseguido peor porque yo comienzo con este valor, pero ahora, mi valor en realidad empeoraron. Ahora mi derivados, ya sabes, puntos a la izquierda y dice que debería disminuir de datos. Pero si mi tasa de préstamo es demasiado grande, que puede tomar un gran paso que va de aquí hasta el final hacia fuera allí. Así que me acaban de salir allí, a la derecha, y si mi tipo de préstamo es demasiado grande Me puede dar un paso enorme en la la aceleración que viene, tipo de el exceso, y el exceso, y así sucesivamente, hasta que te darás cuenta de Me estoy poniendo más y más lejos de la mínima. Y así, si es demasiado grande alfa puede no convergen o divergen aún. Ahora, tengo otra pregunta para usted. Así que este es un asunto delicado , y cuando yo era primero aprender estas cosas, realmente me tomó mucho tiempo para resolver esto. Pero ¿y si el parámetro alpha uno ya está en el mínimo local? ¿Qué te parece un paso de la gradiente de descenso va a hacer? Por lo tanto, vamos a suponer que usted inicializar una teta en un mínimo local. Así que supongo que esto es su valor inicial de una teta por aquí, y es ya en un óptimo local, el mínimo local. Depende del óptimo local, su derivados será igual cero, por lo que cuesta que punto de tangencia por lo que el pendiente de esta línea será igual al cero y, por lo tanto, este término derivado es igual a cero. Y así, en el gradiente actualización de descenso, tiene theta (1) se actualiza a medida theta (1) menos alfa veces 0. Y así, lo que esto significa es que, si usted ya está en un óptimo local, que deja theta (1) sin cambios, ya que ver como se actualiza theta (1) es igual a theta (1). Por lo tanto, si los parámetros ya se encuentran en un mínimo local, un paso de la gradiente de descenso no hace absolutamente nada. No cambia el parámetro, que es lo que quieren porque mantiene su solución en el óptimo local. Esto también explica por qué el descenso de gradiente puede converger a mínimos locales incluso con la tasa de aprendizaje alfa fijo. Esto es lo que quiero decir con esto. Veamos un ejemplo. Por lo tanto, he aquí una función de coste J, o theta, que tal vez desea minimizar. Y digamos que inicializar mi algoritmo, la gradación que yo descenso algoritmo de allí, en ese momento magenta. si doy un paso de gradiente descenso, tal vez me tome a ese punto, porque mi derivados es bastante fuerte por ahí, ¿verdad? Ahora, estoy en este punto verde, y si Yo dar un paso más en verde descenso se dará cuenta de mi derivados, es decir, la pendiente es menos pronunciada en el punto verde en comparación con en el punto de magenta que hay. Porque como me acerco a la mínimo, derivado de mi más cerca y más cerca de cero como Me acerco a la mínima. Así que, después de un paso de gradiente de descenso, mi nuevo derivado es un poco más pequeño, así que cuando Me da otro paso de gradiente descenso, que naturalmente, un pequeño paso de este punto verde hasta el punto de color magenta. Ahora desde el punto nuevo en el punto rojo. Ahora estoy aún más a la mínimo, por lo que el derivado de aquí será aún más pequeño de lo que era en el punto verde. Así que quiero dar un paso más de la gradiente de descenso. Ahora, mi término derivado es aún menor. Y así, la magnitud de la actualización de una teta Es incluso más pequeño a fin de tomar una pequeños pasos como tal, y como gradiente descendente corre usted automáticamente tomar más pequeños y pequeños pasos hasta que finalmente está tomando pasos muy pequeños, ya sabes, y te encuentras con la la conversión a la, hasta el mínimo local. Por lo tanto, sólo para recapitular, en gradiente de descenso, cuando nos acercamos a un mínimo local, descenso de gradiente automáticamente tomar pasos más pequeños, y eso es porque a medida que nos acercamos a el mínimo local, por definición, el mínimo local es cuando se sabemos que hay derivados igual a cero. Así que cuando nos acercamos al mínimo local este término derivado automáticamente se hacen más pequeños y así gradiente de descenso de forma automática se pasos más pequeños, por lo que este es lo que parece gradiente de descenso, y lo que en realidad no hay necesidad para disminuir la alfa en el tiempo. Así que esa es la pendiente algoritmo de descenso, y se puede lo utilizan para reducir al mínimo, para tratar de para minimizar cualquier J función de costos, no la función de costo J se define a partir de la regresión lineal. En el siguiente video, vamos para tomar la J y la función conjunto que vuelve a ser de regresión lineal con exactitud la función de coste, la función de costo cuadrados que ocurrió con las anteriores, y teniendo pendiente de descenso y el costo cuadrados función y ponerlos juntos, 329 00:11:45,080 -> 00:11:48,077 que nos dará nuestro algoritmo de aprendizaje de primera. Que nos dará nuestro algoritmo de regresión lineal.