PRML 4.4～4.5.2 - trsing’s diary

4.4 ラプラス近似

今後の議論(4.5節)について。モデルが複雑(事後確率分布がガウス分布でない)でパラメータベクトル $w$ 上で正確に積分することができないため、何らかの近似を導入する必要が出てくる。ここではラプラス近似を紹介する。

ラプラス近似の目的：連続変数の集合上に定義される確率密度分布に対してガウス分布による近似を見出すこと。

(4.127)：
一次項があると(4.127)を微分したものが $z=z_{0}$ で0にならない。

4.4.1 モデルの比較とBIC

モデルエビデンスとBIC(ベイズ情報量基準)の関係について。

(4.113)から正規化係数 $Z$ の近似(4.135)を得る。
モデルエビデンスに(4.135)を適用して(4.137)を得る。
パラメータの上での事前確率分布のガウス分布が広がっており、そのヘッセ行列が非退化であると仮定するなら(4.137)はBIC表現の式(4.139)で書ける。

BIC(ベイズ情報量基準)：複雑性の測度。(1.73)のAICよりモデルの複雑さに重いペナルティーを科す。

4.5 ベイズロジスティック回帰

ロジスティック回帰のベイズ的な取り扱いについて。厳密にベイズ推論を適用するのは難しい(特に事後確率分布の評価)ため、ラプラス近似を適用する。

4.5.1 ラプラス近似

ラプラス近似には、事後分布の対数の2階微分の評価が必要。これはヘッセ行列を見つけることと等価。ヘッセ行列は(4.143)。
事後確率分布のガウス分布による近似は(4.144)となる。

(4.143)：
(4.97)より

4.5.2 予測分布

近似されたガウス分布(4.144)を周辺化して新たな特徴ベクトル $\phi(x)$ が与えられた場合のクラス $C_{1}$ に対する予測分布を得る。

予測分布の変分近似は(4.151)となるが、解析的に評価できない。しかし、ロジスティックシグモイド関数 $\sigma(a)$ とプロビット関数の逆関数 $\Phi(a)$ の類似性を利用すれば近似予測分布(4.155)を得ることができる。

(4.147)：
$\int\sigma(w^{T}\phi)q(w)\,dw=\int\int\delta(a-w^{T}\phi)\sigma(a)\,da\,q(w)dw\\ \hspace{30pt}=\int\sigma(a)\int\delta(a-w^{T}\phi)q(w)\,dw\,da=\int\sigma(a)p(a)\,da$

(4.194)：
$\int p(a)a\,da=\int\int\delta(a-w^{T}\phi)q(w)\,dw\,a\,da=\int\,q(w)\,\int\delta(a-w^{T}\phi)a\,da\,dw\\ \hspace{20pt}=\int \,q(w)w^{T}\phi\,dw=E[w^{T}]\phi$

(4.150)：
$E[a^{2}]= \int p(a) a^{2} \, da= \int\int\delta(a-w^{T}\phi)q(w)\,dw\, a^{2}\,da\\ \hspace{20pt}= \int\int\delta(a-w^{T}\phi)a^{2}\,da\, q(w)\,dw= \int (w^{T}\phi)^{2}q(w)\,dw\\ \hspace{20pt}= \phi^{T}\int ww^{T}q(w)dw\phi= \phi^{T}E[ww^{T}]\phi\\ \\ E[a]^2=(E[w^{T}]\phi)^{2}= \phi^{T}E[w^{T}]E[w]\phi\\ \\ Var[a]=E[a^{2}]-E[a]^{2}= \phi^{T}E[ww^{T}]\phi-\phi^{T}E[w^{T}]E[w]\phi\\ \hspace{30pt}= \phi^{T}( E[ww^{T}]-E[w^{T}]E[w] )\phi= \phi^{T}S_{N}\phi$

(4.153)：
$\int \, \sigma(a)N(a|\mu,\sigma'^{2})\,da \simeq \int \Phi(\lambda a)N(a|\mu,\sigma'^{2})\,da=\Phi\biggl(\frac{\mu}{(\lambda^{-2}+\sigma'^{2})^{1/2}}\biggr)\\ \hspace{50pt}= \Phi\biggl(\lambda\frac{\mu}{(1+\lambda^{2}\sigma'^{2})^{1/2}}\biggr) \simeq \sigma \biggl(\frac{\mu}{(1+\lambda^{2}\sigma'^{2})^{1/2}}\biggr)$