梯度下降法
梯度下降法 ( 英语: Gradient descent )是一个一阶最优化算法,通常也称为 最速下降法 。 要使用梯度下降法找到一个函数的局部极小值,必须向函数上当前点对应梯度(或者是近似梯度)的 反方向 的规定步长距离点进行迭代搜索。如果相反地向梯度 正方向 迭代进行搜索,则会接近函数的局部极大值点;这个过程则被称为 梯度上升法 。 目录 1 描述 1.1 例子 1.2 缺点 2 参阅 3 参考文献 4 外部链接 描述 梯度下降法的描述。 梯度下降方法基于以下的观察:如果实值函数 F(x){displaystyle F(mathbf {x} )} 在点 a{displaystyle mathbf {a} } 处可微且有定义,那么函数 F(x){displaystyle F(mathbf {x} )} 在 a{displaystyle mathbf {a} } 点沿着梯度相反的方向 − ∇ F(a){displaystyle -nabla F(mathbf {a} )} 下降最快。 因而,如果 b=a− γ ∇ F(a){displaystyle mathbf {b} =mathbf {a} -gamma nabla F(mathbf {a} )} 对于 γ >0{displaystyle gamma >0} 為一個够小数值時成立,那么 F(a)≥ F(b){displaystyle F(mathbf {a} )geq F(mathbf {b} )} 。 考虑到这一点,我们可以从函数 F{displaystyle F} 的局部极小值的初始估计 x0{displaystyle mathbf {x} _{0}} 出发,并考虑如下序列 x0,x1,x2,… {displaystyle mathbf {x} _{0},mathbf {x} _{1},mathbf {x} _{2},dots } 使得 xn+1=xn− γ n∇ F(xn), n≥ 0{displaystyle mathbf {x} _{n+1}=mathbf {x} _{n}-gamma _{n}nabla F(mathbf {x} _{n}), ngeq 0} 。 ...