5.2.1 パラメータ最適化
課題
誤差関数を最小にする重みベクトルを見つける。
結論
方程式の解を見つければよい。 しかし、解析的な解を見つけるのはほぼ無理なため数値的な反復手段により解を見つける。
理由
誤差関数の勾配が0になる点が最小値になる(勾配が0でないならの方向に少し動かすと更に誤差関数を小さくできる)。 勾配が0なら最小値というわけではないことに注意。
補足
極小点種類
大域的最小点:誤差関数の最小値に相当する極小点
局所的極小点:大域的最小値以外の極小点
一般的に大域的最小点を見つけたかどうか知ることはできない。
5.2.2 局所二次近似
目的
最適化問題とそれを解くテクニックへの理解を得るため、誤差関数の局所二次近似を考える。
結論
で評価されたヘッセ行列が正定値ならは極小点である。
理由
をある点の周りでテイラー展開すると(5.28)。
3次以上の項は省略、b,Hはそれぞれ(5.29),(5.30)。
極小点の周りで局所二次近似を考えると(5.32)。
※極小点で勾配0なので
(5.32)をHの固有ベクトルで表現すると $$ E(w)=E(w^{\ast})+\frac{1}{2}(\sum\alpha_{i}u_{i})^{T}H(\sum\alpha_{i}u_{i})\\ =E(w^{\ast})+\frac{1}{2}(\sum\alpha_{i}u_{i})^{T}(\sum\lambda_{i}\alpha_{i}u_{i})\\ =E(w^{\ast})+\frac{1}{2}\sum\lambda_{i}\alpha_{i}^{2} $$ Hが正定値()なら、のとき<となるためは極小点となる。
5.2.3 勾配情報の利用
勾配情報の利用により、誤差巻子の極小点を見つけるのに必要な計算量はからに向上する。
勾配情報を利用しない場合
個の点で関数を評価、それぞれの評価にステップが必要なため、ステップとなる。
勾配情報を利用する場合
回の評価、それぞれの評価にステップが必要なため、ステップとなる。
5.2.4 勾配降下最適化
勾配情報を用いたアプローチの紹介。
勾配降下法あるいは最急降下法
(5.41)。直感的には合理的だが、実際には性能が悪い。
共役勾配法、準ニュートン法
単純な勾配降下法よりも頑強でかつ早い。また、極小点に到達しない限り、反復ごとに常に誤差関数が減少する。
オンライン勾配降下法あるいは逐次的勾配降下法、確率的勾配降下法
誤差関数は各データ点を表す項の和からなる(5.42)。
重みベクトルの更新を1回ごとに1つのデータ点に基づいて作成する(5.43)。
オンライン手法の利点
データの冗長度を効率的扱うことができる。
局所的極小値を回避できる可能性がある。