备忘

/ 默认分类 / No comments yet / 195 browses

1. 泰勒展开公式(牛顿法)

$$\varphi (x)=\frac{f(x_0)}{0!}+\frac{f'(x_0)}{1!}(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2+...+\frac{f^{(n)}(x_0)}{n!}(x-x_0)^n$$

$$\varphi (x) \approx \frac{f(x_0)}{0!}+\frac{f'(x_0)}{1!}(x-x_0)+\frac{f''(x_0)}{2!}(x-x_0)^2$$ when \(\varphi'(x_0) = 0\) $$f'(x_0)+f''(x_0)(x-x_0)=0$$ $$x=x_0-\frac{f'(x_0)}{f''(x_0)}$$

2. 梯度下降的局限性

原因:梯度下降法在求解最小值时具有一定的局限性,用一句话概括就是,目标函数必须是凸函数。关于凸函数的判定,对于一元函数来说,一般是求二阶导数,若其二阶导数非负,就称之为凸函数。对于多元函数来说判定方法类似,只是从判断一元函数的单个二阶导数是否非负,变成了判断所有变量的二阶偏导数构成的黑塞矩阵(Hessian Matrix)是否为半正定矩阵。判断一个矩阵是否半正定可以判断所有特征值是否非负,或者判断所有主子式是否非负

解决方法:为了从鞍点和极小值点中脱出,在梯度下降法的基础上衍生出了各式各样的改进算法,例如动态调整步长(即学习率),利用上一次结果的动量法,以及随机梯度下降法(Stochastic Gradient Descent, SGD)等等。实际上,这些优化算法在当前最火热的深度学习中也占据着一席之地,例如adagrad、RMSprop,Adam等等。

作者:陈运文
链接:https://zhuanlan.zhihu.com/p/34497989
来源:知乎
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。