PRML 5.5.4～5.5.6 - trsing’s diary

5.5.4　接線伝播法

やること

誤差関数に正則化項を加えて入力の変換に対する不変性をモデルに持たせる。正則化関数として、入力ベクトルを変換をした場合出力ベクトルに及ぼす影響を利用する。

詳細

変換が1つのパラメータ $\xi$ で支配される場合、入力ベクトル $x_{n}$ を変換を作用させて得られる新たな入力ベクトルを $s(x_{n},\xi)$ と表す。変換しない場合( $\xi=0$ )は $s(x,0)=x$ 。 $x_{n}$ における変換の方向のベクトルは(5.125)。

入力ベクトル $x$ を $\xi$ で変換したとき出力ベクトル $k$ に及ぶ影響は(5.126)。

データ点の近傍において局所的に不変性を持つようにこれを正則化関数(5.128)として、もとの誤差関数に加える(5.127)。

$\lambda$ で訓練データに対するフィッティングと不変性の学習のバランスを決定する

図5.16について

(b)=s(a, $\xi$ )
(c)=(a)+(b)/ $\xi$ *15度
(d)=s(a,15度)

5.5.5　変換されたデータを用いた訓練

もとの入力パターンを変換して訓練集合を拡大する方法が、接線伝播法と関連があることを示す。

詳細

もとの入力パターンを変換して訓練集合を拡大する方法の誤差関数が接線伝播法の誤差関数と等しくなることを示す

入力パターンを変換していない誤差関数は(5.129)。
入力パターンを変換して訓練集合を拡大した場合の誤差関数は(5.130)。
$y(s(x,\xi))$ を展開して(5.130)に代入すると(5.131)、(5.132)を得る。
(5.131)より(5.133)であるため正則化項は(5.134)となる。

これは接線伝播法における正則化項(5.128)と等価である。

$y(s(x,\xi))$ のテイラー展開について

$$ y(s(x,\xi))=y(s(x,0))+(s(x,\xi)-s(x,0))^{T} \left. \frac{\partial y}{\partial s} \right|_{\xi=0}\\ \hspace{40pt}+ \frac{1}{2}(s(x,\xi)-s(x,0))^{T}\left. \frac{\partial^{2} y}{\partial^{2} s} \right|_{\xi=0}(s(x,\xi)-s(x,0)) $$ ここで
$\displaystyle{ \hspace{90pt} s(x,\xi)-s(x,0)=\xi \tau +\frac{1}{2}\xi^{2} \tau'+O(\xi^{3}),\,\,\, \left. \frac{\partial y}{\partial s}\right|_{\xi=0}=\nabla_{x}y\\ \hspace{90pt}(s(x,\xi)-s(x,0))^{T} (s(x,\xi)-s(x,0)) = \xi^{2} \tau^{T} \tau + O(\xi^{3}) }$
より
$\displaystyle \hspace{20pt}y(s(x,\xi))=y(x)+\xi\tau^{T} \nabla y(x)+\frac{\xi^{2}}{2} \left[ (\tau')^{T}\nabla y+\tau^{T}\nabla\nabla y(x)\tau \right]+O(\xi^{3})$

(5.130)から(5.132)

$y(s(x,\xi))$ を展開した(5.130)の
第二項： $\int \xi p(\xi) d\xi=E[\xi$ ]
第三項： $\int \xi^{2} p(\xi) d\xi=E[\xi^{2}$ ] 、 $\int p(t|x) dt=1$ 、 $\int tp(t|x) dt=E[t|x$ ]