4.23
(4.138)より $$ A=-\nabla\nabla\ln p(D|\theta_{MAP})p(\theta_{MAP})=-\nabla\nabla(\ln p(D|\theta_{MAP})+p(\theta_{MAP}))=H-\nabla\nabla\ln p(\theta_{MAP}) $$ より $$ A=H+V_{0}^{-1} $$ 事前確率が広い幅を持っている(が大きい)、もしくはデータ数が多いと仮定するとと比べてを無視できる。この結果より(4.137)は $$ \ln p(D)\simeq\ln p(D|\theta_{MAP})-\frac{1}{2}(\theta_{MAP}-m)^{T}V_{0}^{-1}(\theta_{MAP}-m)-\frac{1}{2}|H|+const\hspace{15pt} (113) $$
事前分布が広い幅を持っているとの仮定により(113)の右辺第二項を第一項と比較して無視できる。
独立同時分布と仮定したので、は各データ点に対応する項の和で書くことができ、 $$ H=\sum_{n=1}^{N}H_{n}=N\frac{1}{N}\sum_{n=1}^{N}H_{n}=N\hat{H} $$ はn個目のデータ点による寄与。
行列式は $$ \ln|H|=\ln|N\hat{H}|=\ln(N^{M}|\hat{H}|)=M\ln N+\ln|\hat{H}| $$ ここではに含まれるパラメータ数。はフルランクと仮定している。この結果と(113)、に比べてO(1)のためを無視することにより(4.139)を得ることができる。
解答見ながら。わからん。
4.24
次元ベクトルの座標軸の回転を考える。 ここで、、はサイズのベクトル。
同時分布はガウス分布である。それゆえ周辺分布もガウス分布であり、2.3.2節で示された結果を使用してパラメータを得ることができる。
単位ベクトル
$$
e=\frac{1}{||\phi||}\phi
$$
を使用して
$$
q(w_{||})=N(w_{||}|e^{T}m_{N},e^{T}S_{N}e)
$$
を得る。
と定義し、
の分散は
ガウス分布の単純なスケーリング変換により得ることができる。
つまり
$$
q(a)=N(a|\phi^{T}m_{N},\phi^{T}S_{N}\phi)
$$
ここでを用いた。
それゆえ(4.151)を得る。
ここでと[\sigma_{a}^{2}]は(4.149)と(4.150)。
なるほどわからん・・・
4.25
のとき
よりのとき
より
4.26
左辺と右辺が等しいということはとの関数に至るまで等しい。極限をとると左辺と右辺は両方0になる。これは積分の定数項がゼロであることを示す。
解答見ながら。前半はわかる。