mathjax

2018年1月21日日曜日

勾配降下法と確率的勾配降下法

PRML「5.2.4 勾配降下最適化」に両者の違いが分かり易く書いてあった。
勾配降下法
gradient descent method
最急降下法
steep descent method
全ての訓練データの誤差関数の合計の勾配を使って重みを更新する。直観的には合理的なようでも、実際には性能が悪いことが分かっている$$E(\textbf w)=\sum_{n=1}^NE_n(\textbf w)\\
\textbf w^{(\tau+1)}=\textbf w^{(\tau)}-\eta\triangledown E(\textbf w^{(\tau)})$$
逐次的勾配降下法
sequential gradient decent method
確率的勾配降下法
stochastic gradient descent
一つのデータの誤差関数毎に重みの更新行う。
$$\textbf w^{(\tau+1)}=\textbf w^{(\tau)}-\eta\triangledown E_n(\textbf w^{(\tau)})$$幾つかのデータを一まとめにして更新を行う中間的な方法もある。
大規模なデータ集合についての訓練では、この方法が実用上便利であることがLe cun et al., 1989で分かっている。

0 件のコメント:

コメントを投稿