PRML 4章演習問題 4.23～4.26

4.23

(4.138)より $$ A=-\nabla\nabla\ln p(D|\theta_{MAP})p(\theta_{MAP})=-\nabla\nabla(\ln p(D|\theta_{MAP})+p(\theta_{MAP}))=H-\nabla\nabla\ln p(\theta_{MAP}) $$ $p(\theta)=N(\theta|m,V_{0})$ より $$ A=H+V_{0}^{-1} $$ 事前確率が広い幅を持っている( $V_{0}$ が大きい)、もしくはデータ数 $N$ が多いと仮定すると $H$ と比べて $V_{0}^{-1}$ を無視できる。この結果より(4.137)は $$ \ln p(D)\simeq\ln p(D|\theta_{MAP})-\frac{1}{2}(\theta_{MAP}-m)^{T}V_{0}^{-1}(\theta_{MAP}-m)-\frac{1}{2}|H|+const\hspace{15pt} (113) $$

事前分布が広い幅を持っているとの仮定により(113)の右辺第二項を第一項と比較して無視できる。

独立同時分布と仮定したので、 $H$ は各データ点に対応する項の和で書くことができ、 $$ H=\sum_{n=1}^{N}H_{n}=N\frac{1}{N}\sum_{n=1}^{N}H_{n}=N\hat{H} $$ $H_{n}$ はn個目のデータ点による寄与。

行列式は $$ \ln|H|=\ln|N\hat{H}|=\ln(N^{M}|\hat{H}|)=M\ln N+\ln|\hat{H}| $$ ここで $M$ は $\theta$ に含まれるパラメータ数。 $\hat{H}$ はフルランク $M$ と仮定している。この結果と(113)、 $\ln N$ に比べてO(1)のため $\ln|\hat{H}|$ を無視することにより(4.139)を得ることができる。

解答見ながら。わからん。

4.24

$M$ 次元ベクトル $w$ の座標軸の回転を考える。ここで $w=(w_{||},w_{\perp})$ 、 $w^{T}\phi=w_{||}||\phi||$ 、 $w_{\perp}$ はサイズ $M-1$ のベクトル。

$\displaystyle \int\sigma(w^{T}\phi)q(w)dw=\int\int\sigma(w_{||}||\phi||)q(w_{\perp}|w_{||})q(w_{||})dw_{||}dw_{\perp}\\ \displaystyle \hspace{75pt}=\int \sigma(w_{||}||\phi||)q(w_{||})dw_{||}$

同時分布 $q(w_{perp},w_{||})$ はガウス分布である。それゆえ周辺分布 $q(w_{||})$ もガウス分布であり、2.3.2節で示された結果を使用してパラメータを得ることができる。単位ベクトル $$ e=\frac{1}{||\phi||}\phi $$ を使用して
$$ q(w_{||})=N(w_{||}|e^{T}m_{N},e^{T}S_{N}e) $$ を得る。 $a=w_{||}||\phi||$ と定義し、 $a$ の分散はガウス分布の単純なスケーリング変換により得ることができる。つまり
$$ q(a)=N(a|\phi^{T}m_{N},\phi^{T}S_{N}\phi) $$ ここで $||\phi||e=\phi$ を用いた。それゆえ(4.151)を得る。ここで $\mu_{a}$ と[\sigma_{a}^{2}]は(4.149)と(4.150)。

なるほどわからん・・・

4.25

$\displaystyle \hspace{30pt}\frac{d \Phi(\lambda a)}{da}=\lambda N(\lambda a|0,1)=\frac{\lambda}{(2\pi)^{1/2}}\exp(-\frac{1}{2}(\lambda a)^{2})$
$a=0$ のとき $\frac{\lambda}{(2\pi)^{1/2}}$

$\displaystyle \hspace{30pt}\frac{d \sigma(a)}{d a}=\sigma(a)(1-\sigma(a))$
$\sigma(0)=\frac{1}{1+\exp(-0)}=\frac{1}{2}$ より $a=0$ のとき $\frac{1}{2}(1-\frac{1}{2})=\frac{1}{4}$