PRMLメモ３章 3.4～3.5.3 - trsing’s diary

3.4 ベイズモデル比較

$p(\mathcal{D}|\mathcal{M}_{i})$ ：モデルエビデンス、または周辺尤度
$p(\mathcal{D}|\mathcal{M}_{i})/p(\mathcal{D}|\mathcal{M}_{j})$ ：ベイズ因子

単純なモデルで得られるデータ集合 $\mathcal{D}$ は多様性に乏しい：例えば $y=w_{0}$ であれば得られるデータ集合は $w_{0}$ (+ランダムノイズ)。 $y=w_{0}+w_{1}x$ であれば得られるデータ集合は直線に乗るもの(+ランダムノイズ)。
複雑なモデルでは多様なデータ集合が得られるがそのため特定のデータ集合 $\mathcal{D}_{0}$ が得られる確率は低くなる。

(3.73)は対数を取ったベイズ因子の(モデル $\mathcal{M}_{1}$ に従う)データ集合に関する期待値。 $E_{D}[ln \frac{p(\mathcal{D}|\mathcal{M}_{1})}{p(\mathcal{D}|\mathcal{M}_{2})}|\mathcal{M}_{1}]$ 。これが>0より平均的に $p(\mathcal{D}|\mathcal{M}_{1})>p(\mathcal{D}|\mathcal{M}_{2})$ 。

3.5 エビデンス近似

エビデンス近似：パラメータwだけに関して積分して周辺尤度関数を得る。これを最大にするように超パラメータの値を決める。
事前分布 $p(\alpha,\beta)$ が平坦→定数として扱う→ $p(t|\alpha,\beta)$ を最大にする $\alpha,\beta$ で $p(\alpha,\beta|t)$ の最大値が得られる。

・ $w,\alpha,\beta$ に関して周辺化して予測分布を得る(3.74)
・ $\alpha,\beta$ を固定して $w$ を周辺化して予測分布を得る(3.75)
・事後分布 $p(\alpha,\beta|t)$ を最大にする $\alpha,\beta$ を得たい。→(3.76)から $p(t|\alpha,\beta)$ を最大にすることで得られる。( $p(\alpha,\beta)$ は比較的平坦とする)

比 $\alpha/\beta$ は正則化パラメータと同様の働きをする：(3.55)参照

3.5.1 エビデンス関数の評価

エビデンス関数(3.77)の対数表現は(3.86)。導出はおおむね演習問題で。
(3.83)： $\frac{\partial^{2} E(w)}{\partial w_{i} \partial w_{j}}=\delta_{ij}\alpha+\beta\sum\phi_{i}(x_{n})\phi_{j}(x_{n})$ より
(3.86)は(3.72)に対応( $\mathcal{D}$ とtが対応？)

3.5.2 エビデンス関数の最大化

$\alpha\sum\frac{1}{\lambda_{i}+\alpha}=\sum\frac{\lambda_{i}+\alpha-\lambda_{i}}{\lambda_{i}+\alpha}=M-\sum\frac{\lambda_{i}}{\lambda_{i}+\alpha}$
$\Phi^{T}\Phi$ が変化しないので $\Phi^{T}\Phi$ の固有ベクトル $u_{i}$ も変化しない。
$\frac{d}{d\beta}\lambda_{i}u_{i}=\frac{d}{d\beta}\beta\Phi^{T}\Phi u_{i}=\Phi^{T}\Phi u_{i}=\frac{\lambda_{i}}{\beta}u_{i}$ より $\frac{d \lambda_{i}}{d\beta}=\frac{\lambda_{i}}{\beta}$

3.5.3 有効パラメータ数

$w_{ML}=(\Phi^{T}\Phi)^{-1}\Phi^{T}t$
$w_{MAP}=m_{N}=\beta(\alpha I+\beta\Phi^{T}\Phi)^{-1}\Phi^{T}t$
$\alpha=0$ なら $w_{MAP}=w_{ML}$ 。 $\alpha$ が無限なら0。 $w_{MAP}$ は $0～w_{ML}$ 間にある。
$\alpha$ が $\lambda_{i}$ と比較して十分大きいなら $w_{MAP}$ の $i$ 要素は0に近くなる。

(3.21)： $1/\beta_{ML}=1/N\sum\{t_{n}-w^{T}_{ML}\phi(x_{n})\}^{2}$
(3.95)： $1/\beta=1/(N-\gamma)\sum\{t_{n}-m^{T}_{N}\phi(x_{n})\}^{2}$

図3.16：交点が $\gamma=\alpha m_{N}^Tm_{N}$ となる点。

(3.92) $\alpha=\frac{\gamma}{m_N^{T}m_{N}}=\frac{\gamma}{2E_{W}(m_{N})}$
(3.95) $\beta=\frac{N-\gamma}{\sum\{t_{n}-m_{N}^{T}\phi(x_{n})\}^{2}}=\frac{N-\gamma}{2E_{D}(m_{N})}$
$N\gg M$ の時(3.98),(3.99)