trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 3章 3.1.4, 3.1.5

3.1.4 正則化最小二乗法

(3.27):(1.4)あたり参照。

(3.27)をw_i偏微分すると

\sum_{n=1}^N\{t_n-w^{T}\phi(x_n)\}\{-\phi_i(x_n)\}+\lambda w_i=-\phi^{T}(x_i)t+\varphi_i^{T}\Phi w+\lambda w_i

よって(\nabla (3.27))^{T}=0

{\displaystyle
-\left[
\begin{array}{c}
\phi^{T}(x_1)\\
\vdots\\
\phi^{T}(x_N)
\end{array}
\right]t+
\left[
\begin{array}{c}
\varphi_{1}^{T}\\
\vdots\\
\varphi_{M}^{T}
\end{array}
\right]\Phi w+\lambda w=-\Phi^{T} t+\Phi^{T} \Phi w+\lambda I w=0} (\lambda I + \Phi^{T}\Phi )w=\Phi^{T}t

演習3.5の解答を参照すると、
(3.12) +\lambda/2(\sum|w_j|^q-\eta)をwで微分したものと(3.29)をwで微分したものは同じになる(\etaのwにおける微分は0)→(3.29)を最小化することは(3.12)を制約条件(3.20)のもとで最小化することと等しい。
そして非ゼロの\lambdaを選ぶと\sum|w_j|^q-\eta=0が制約条件となるので図3.4が出てくる。

正則化は、適切な基底関数の数を求める問題を正則化係数\lambdaを適切に決める問題に置き換えただけとなる。

(3.12)を最小化するw^{\ast}が求まったら\eta=\sum|w_{j}^{\ast}|^{q}が求まる。\sum|w_{j}|^{q}=\etaとなるwは図3.14の赤線。その中でw_{j}^{\ast}は(3.12)の等高線と接するとこにある。

3.1.5 出力変数型次元の場合

||t_{n}-W^{T}\phi(x_n)||^2=(t_{n}-W^{T}\phi(x_n))^{T}(t_{n}-W^{T}\phi(x_n))w_{ij}微分すると \left(\frac{\partial}{\partial w_{ij}}\{t_{n}-W^{T}\phi(x_n)\}^{T}\right)\{t_{n}-W^{T}\phi(x_n)\}+\{t_{n}-W^{T}\phi(x_n)\}^{T}\frac{\partial}{\partial w_{ij}}\{t_{n}-W^{T}\phi(x_n)\}=2\left(\frac{\partial}{\partial w_{ij}}\{t_{n}-W^{T}\phi(x_n)\}^{T}\right)\{t_{n}-W^{T}\phi(x_n)\}

\frac{\partial}{\partial w_{ij}}\{t_{n}-W^{T}\phi(x_n)\}=-\left[
\begin{array}{c}
0\\
\vdots\\
\phi_{i}(x_n)\\
\vdots\\
0
\end{array}
\right]
※j+1行目が非ゼロ成分(0開始のため)
よって

$$ \begin{bmatrix} 0 & \cdots & \phi_{i}(x_n) & \cdots & 0 \end{bmatrix} \left( \begin{bmatrix} t_{n0}\\ \vdots\\ t_{nj}\\ \vdots\\ t_{nK -1} \end{bmatrix} - \begin{bmatrix} w_{00} & \cdots & w_{M-11}\\ \vdots & \ddots & \vdots\\ w_{0K} & \dots &w_{M-1K} \end{bmatrix} \begin{bmatrix} \phi_{0}(x_{n})\\ \vdots\\ \phi_{M -1}(x_{n}) \end{bmatrix} \right)= \phi_{i}(x_n)t_{nj}-\phi_{i}(x_n) \begin{bmatrix} w_{0j} & \cdots & w_{M-1j} \end{bmatrix} \phi(x_n) $$
これの\sum
$$ \begin{bmatrix} \phi_i(x_{1}) & \cdots & \phi_{i}(x_{N}) \end{bmatrix} \begin{bmatrix} t_{0j}\\ \vdots\\ t_{N-1j} \end{bmatrix}- \begin{bmatrix} \phi_i(x_1) & \cdots & \phi_{i}(x_{N}) \end{bmatrix} \begin{bmatrix} \phi^{T}(x_1)\\ \vdots\\ \phi^{T}(x_{N})\\ \end{bmatrix} \begin{bmatrix} w_{0j}\\ \vdots\\ w_{M -1j} \end{bmatrix}\\ =\varphi_{i}^{T} \begin{bmatrix} t_{0j}\\ \vdots\\ t_{N-1j} \end{bmatrix}- \varphi_{i}^{T}\Phi \begin{bmatrix} w_{0j}\\ \vdots\\ w_{M -1j} \end{bmatrix}= \begin{bmatrix} t_{1j} & \cdots & t_{N -1j} \end{bmatrix} \varphi_{i}- \begin{bmatrix} w_{0j} & \cdots & w_{M -1j} \end{bmatrix} \Phi^{T}\varphi_{i} $$ よってWでの微分は $$ \begin{bmatrix} \begin{bmatrix}t_{10} & \cdots & t_{N0}\end{bmatrix}\varphi_{0} & \cdots & \begin{bmatrix}t_{1K -1} & \cdots & t_{NK -1}\end{bmatrix}\varphi_{0}\\ \vdots & \ddots & \vdots\\ \begin{bmatrix}t_{10} & \cdots & t_{N0}\end{bmatrix}\varphi_{M -1} & \cdots & \begin{bmatrix}t_{1K -1} & \cdots & t_{NK -1}\end{bmatrix}\varphi_{M -1} \end{bmatrix}- \begin{bmatrix} \begin{bmatrix}w_{00} & \cdots & w_{M -10}\end{bmatrix}\Phi^{T}\varphi_{0} & \cdots & \begin{bmatrix}w_{0K -1} & \cdots & w_{M -1K -1}\end{bmatrix}\Phi^{T}\varphi_{0}\\ \vdots & \ddots & \vdots\\ \begin{bmatrix}w_{00} & \cdots & w_{M -10}\end{bmatrix}\Phi\varphi_{M -1} & \cdots & \begin{bmatrix}w_{0K -1} & \cdots & w_{M -1K -1}\end{bmatrix}\Phi^{T}\varphi_{M -1} \end{bmatrix}\\= \begin{bmatrix} \varphi_{0}^{T}\\ \vdots\\ \varphi_{M -1}^{T}\\ \end{bmatrix} \begin{bmatrix} t_{10} & \cdots & t_{1K -1}\\ \vdots & \ddots & \vdots\\ t_{N0} & \cdots & t_{NK -1} \end{bmatrix}- \begin{bmatrix} \varphi_{0}^{T}\\ \vdots\\ \varphi_{M -1}^{T}\\ \end{bmatrix} \Phi \begin{bmatrix} w_{00} & \cdots & w_{1K -1}\\ \vdots & \ddots & \vdots\\ w_{M -10} & \cdots & w_{M -1K -1} \end{bmatrix}= \Phi^{T}T-\Phi^{T}\Phi W $$ これを0とおくと $$ \Phi^{T}\Phi W=\Phi^{T}T $$

メモ -,= がtex中でも行頭に来ると水平線になるので注意。
texで書くのめんどすぎるのはノート撮影して画像貼り付けよう・・・