trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRMLメモ 2章 2.4~2.4.3

2.4指数型分布

指数型分布族の性質について。

x上の指数型分布族は\etaをパラメータとして(2.194)で定義される。

g(\eta)は分布を正規化するための係数と解釈できるので(2.195)。

・ベルヌーイ分布の例

・多項分布の例

(2.212)より

\frac{\mu_k}{1-\sum_j\mu_j}=\exp(\eta_k)

両辺に対して\sum_kすると

\frac{\sum_k\mu_k}{1-\sum_j\mu_j}=\sum_k\exp(\eta_k)

\sum_k\mu_kについて整理して(※\sum_j\mu_j=\sum_k\mu_k)

\sum_k\mu_k=\frac{\sum_k\exp(\eta_k)}{1+\sum_k\exp(\eta_k)}

これを(2.121)に代入すると

\mu_k=\left\{1-\frac{\sum_k\exp(\eta_k)}{1+\sum_k\exp(\eta_k)}\right\}\exp(\eta_k)=\frac{\exp(\eta_k)}{1+\sum_k\exp(eta_k)}

(2.212)を(2.211)に代入すると(2.214)。

※(2.208)と(2.217)の\etaは異なることに注意。

ガウス分布の例

 

2.4.1最尤推定と十分統計量

\nabla\rm{\ln}\,g(\eta)=\frac{\nabla g(\eta)}{g(\eta)},\,p(x|\eta)=h(x)g(\eta)\exp\{\eta^Tu(x)\}より(2.225),(2.226)

\rm{ln}\,(2,227)=\rm{ln}\,p(X|\eta)=\rm{ln}\prod h(x_n)+N\,\rm{ln}\,g(\eta)+\eta^T\sum u(x_n)

解は\sum u(x_n)にのみ依存する((2.194)の十分統計量)ため、データ集合全体を保持する必要はなく\sum u(x_n)のみ保持してればよい。

 

2.4.2共役事前分布

一般に、ある確率分布p(x|\eta)について、尤度関数と共役な事前分布p(\eta)を求めることは可能である。指数型分布族の場合(2.229)。\nuは有効な事前の仮想観測値の数と解釈できる。

 

2.4.3無情報事前分布

分布についての知見がない場合、事後分布への影響がなるべく少ないようにしたい→無情報事前分布を使用する。

パラメータ\lambdaで定められる分布p(x|\lambda)について事前分布p(\lambda)=constを用いる場合、問題点が二つ。

問題点1:\lambdaの定義域が有界でないなら、\lambda上での積分が発散し事前分布は正しく正規化できない(変則事前分布)。変則事前分布でもそれから得られる事後分布が適切(正規化可能)であれば用いられることが多い。

問題点2:非線形な変数変換をしたとき。変換前の確率密度が一定でも変換後の確率密度が一定とならない場合がある。例:(2.231)。

無情報事前分布の例

・(2.232)で表される確率密度。平行移動不変性を持つ。位置パラメータの例はガウス分布の平均\muガウス分布で無情報事前分布(\sigma_0^2→\infty)を用いると、(2.141)\mu_N=\mu_{ML},\,(2.142)\frac{1}{\sigma^2}=\frac{N}{\sigma^2}←事前分布が影響してない。

・(2.236)で表される確率密度。尺度不変性を持つ。尺度パラメータの例は位置パラメータ\muを考慮済みのガウス分布標準偏差\sigma(平均既知、分散未知)。無情報事前分布(a_0=b_0=0)を用いると(2.150)a_N=\frac{N}{2},\,(2.151)b_N=\frac{1}{\sigma^2}=\frac{N}{2}\sigma_{ML}^2←事前分布が影響してない。

 ※(2.240)は\hat\sigma=c\sigma,\hat{x}=c(x-\mu)とすれば(2.237)の形になる

 

p(\rm{ln}\,\sigma)=\rm{const}について

y=\rm{ln}\,\sigma→\frac{\rm{d}\sigma}{\rm{d}y}=\frac{\rm{d}\exp(y)}{\rm{d}y}=\sigma

p(\rm{ln}\,\sigma)=p(\sigma)\frac{\rm{d}\sigma}{\rm{d}y}=p(\sigma)\sigma\propto\frac{1}{\sigma}{\sigma}

 

p(\lambda)\propto 1/\lambdaについて

\lambda=1/\sigma^2→\frac{\rm{d}\sigma}{\rm{d}\lambda}=\mp\frac{1}{2}\lambda^{-3/2}

p(\lambda)=p(\sigma)\left|\frac{\rm{d}\sigma}{\rm{d}\lambda}\right|\propto\lambda^{1/2}\lambda^{-3/2}=1/\lambda