trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRMLメモ 3章 3.4~3.5.3

3.4 ベイズモデル比較

p(\mathcal{D}|\mathcal{M}_{i}):モデルエビデンス、または周辺尤度
p(\mathcal{D}|\mathcal{M}_{i})/p(\mathcal{D}|\mathcal{M}_{j})ベイズ因子

単純なモデルで得られるデータ集合\mathcal{D}は多様性に乏しい:例えばy=w_{0}であれば得られるデータ集合はw_{0} (+ランダムノイズ)。y=w_{0}+w_{1}xであれば得られるデータ集合は直線に乗るもの(+ランダムノイズ)。
複雑なモデルでは多様なデータ集合が得られるがそのため特定のデータ集合\mathcal{D}_{0}が得られる確率は低くなる。

(3.73)は対数を取ったベイズ因子の(モデル\mathcal{M}_{1}に従う)データ集合に関する期待値。E_{D}[ln \frac{p(\mathcal{D}|\mathcal{M}_{1})}{p(\mathcal{D}|\mathcal{M}_{2})}|\mathcal{M}_{1}]。これが>0より平均的にp(\mathcal{D}|\mathcal{M}_{1})>p(\mathcal{D}|\mathcal{M}_{2})

3.5 エビデンス近似

エビデンス近似:パラメータwだけに関して積分して周辺尤度関数を得る。これを最大にするように超パラメータの値を決める。
事前分布p(\alpha,\beta)が平坦→定数として扱う→p(t|\alpha,\beta)を最大にする\alpha,\betap(\alpha,\beta|t)の最大値が得られる。

w,\alpha,\betaに関して周辺化して予測分布を得る(3.74)
\alpha,\betaを固定してwを周辺化して予測分布を得る(3.75)
・事後分布p(\alpha,\beta|t)を最大にする\alpha,\betaを得たい。→(3.76)からp(t|\alpha,\beta)を最大にすることで得られる。(p(\alpha,\beta)は比較的平坦とする)

\alpha/\beta正則化パラメータと同様の働きをする:(3.55)参照

3.5.1 エビデンス関数の評価

エビデンス関数(3.77)の対数表現は(3.86)。導出はおおむね演習問題で。
(3.83):\frac{\partial^{2} E(w)}{\partial w_{i} \partial w_{j}}=\delta_{ij}\alpha+\beta\sum\phi_{i}(x_{n})\phi_{j}(x_{n})より
(3.86)は(3.72)に対応(\mathcal{D}tが対応?)

3.5.2 エビデンス関数の最大化

\alpha\sum\frac{1}{\lambda_{i}+\alpha}=\sum\frac{\lambda_{i}+\alpha-\lambda_{i}}{\lambda_{i}+\alpha}=M-\sum\frac{\lambda_{i}}{\lambda_{i}+\alpha}
\Phi^{T}\Phiが変化しないので\Phi^{T}\Phi固有ベクトルu_{i}も変化しない。
\frac{d}{d\beta}\lambda_{i}u_{i}=\frac{d}{d\beta}\beta\Phi^{T}\Phi u_{i}=\Phi^{T}\Phi u_{i}=\frac{\lambda_{i}}{\beta}u_{i}より\frac{d \lambda_{i}}{d\beta}=\frac{\lambda_{i}}{\beta}

3.5.3 有効パラメータ数

w_{ML}=(\Phi^{T}\Phi)^{-1}\Phi^{T}t
w_{MAP}=m_{N}=\beta(\alpha I+\beta\Phi^{T}\Phi)^{-1}\Phi^{T}t
\alpha=0ならw_{MAP}=w_{ML}\alphaが無限なら0。w_{MAP}0~w_{ML}間にある。
\alpha\lambda_{i}と比較して十分大きいならw_{MAP}i要素は0に近くなる。

(3.21):1/\beta_{ML}=1/N\sum\{t_{n}-w^{T}_{ML}\phi(x_{n})\}^{2}
(3.95):1/\beta=1/(N-\gamma)\sum\{t_{n}-m^{T}_{N}\phi(x_{n})\}^{2}

図3.16:交点が\gamma=\alpha m_{N}^Tm_{N}となる点。

(3.92)\alpha=\frac{\gamma}{m_N^{T}m_{N}}=\frac{\gamma}{2E_{W}(m_{N})}
(3.95)\beta=\frac{N-\gamma}{\sum\{t_{n}-m_{N}^{T}\phi(x_{n})\}^{2}}=\frac{N-\gamma}{2E_{D}(m_{N})}
N\gg Mの時(3.98),(3.99)