trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRMLメモ 2章 2.5~2.5.2

2.5ノンパラメトリック

パラメトリックなアプローチ:データ集合から値が決定される少数のパラメータで関数形が決まるような確率密度を利用

制限:データを生成した分布に適さない密度関数を選ぶと予測性能が悪くなる(例:多峰性の分布に単峰性のガウス分布を使う)

ノンパラメトリックなアプローチ:分布の形状についてわずかな仮定

制限:データ集合が大きいと膨大な計算量が必要になる。(カーネル密度推定法、K近傍法の場合)

 

ヒストグラム密度推定法

(2.241)正規化:\sum_ip_i\Delta_i=1

区間の幅\deltaが小さすぎる場合:ノイズを拾う

区間の幅\deltaが大きすぎる場合:なだらかになりすぎて特徴を失う

メリット:元のデータ集合を保存する必要がない、逐次的に使うのが容易、1,2次元の簡便な可視化に役立つ

デメリット:ほとんどの密度推定の応用問題には適さない、推定した密度が区間の縁で不連続になる、次元数の増加に伴い計算規模が増大する

 

2.5.1カーネル密度推定法

観測データN個。領域RにK個のデータが入る→(2.243)

E[ax]=aE[x],\,Var[ax]=a^2Var[x]

・Kを固定してデータからVの値を推定する→K近傍法

・Vを固定してデータからKを推定する→カーネル近傍法

VがNに応じて縮小し、KがNに応じて大きくなる→N→\inftyで真の確率密度に収束する

(2.247):原点を中心とする単位立方体内は1、外は0

k((x-x_n)/h):x_nがxを中心とする一辺hの立方体内にあれば1、なければ0.(逆に、xがx_nを中心とする立方体内にあれば1とも解釈できる)

問題点:立方体の縁で人為的な不連続が生じる。→滑らかなカーネル関数(例:ガウスカーネル)を選べば緩和される。

 

2.5.2最近傍法

カーネルアプローチの欠点:データの密度で高い領域でも低い領域でも同じ幅を使うため、大きすぎると高い領域が平滑化されすぎ小さすぎると低い領域でノイズを拾う。

→最近傍法による密度推定:データ空間内の位置に応じてhを変える。(パラメータ(K)が大きすぎても小さすぎても平滑化されすぎたりノイズを拾うのは同じ。また正規化れた密度モデルにはなってない)

・K近傍法はクラス分類問題にも拡張できる。K近傍の点集合の中で最も多数派のクラスに割り当てる。K=1の場合最近傍則と呼ばれる。

 

 

 

 

PRMLメモ 2章 2.4~2.4.3

2.4指数型分布

指数型分布族の性質について。

x上の指数型分布族は\etaをパラメータとして(2.194)で定義される。

g(\eta)は分布を正規化するための係数と解釈できるので(2.195)。

・ベルヌーイ分布の例

・多項分布の例

(2.212)より

\frac{\mu_k}{1-\sum_j\mu_j}=\exp(\eta_k)

両辺に対して\sum_kすると

\frac{\sum_k\mu_k}{1-\sum_j\mu_j}=\sum_k\exp(\eta_k)

\sum_k\mu_kについて整理して(※\sum_j\mu_j=\sum_k\mu_k)

\sum_k\mu_k=\frac{\sum_k\exp(\eta_k)}{1+\sum_k\exp(\eta_k)}

これを(2.121)に代入すると

\mu_k=\left\{1-\frac{\sum_k\exp(\eta_k)}{1+\sum_k\exp(\eta_k)}\right\}\exp(\eta_k)=\frac{\exp(\eta_k)}{1+\sum_k\exp(eta_k)}

(2.212)を(2.211)に代入すると(2.214)。

※(2.208)と(2.217)の\etaは異なることに注意。

ガウス分布の例

 

2.4.1最尤推定と十分統計量

\nabla\rm{\ln}\,g(\eta)=\frac{\nabla g(\eta)}{g(\eta)},\,p(x|\eta)=h(x)g(\eta)\exp\{\eta^Tu(x)\}より(2.225),(2.226)

\rm{ln}\,(2,227)=\rm{ln}\,p(X|\eta)=\rm{ln}\prod h(x_n)+N\,\rm{ln}\,g(\eta)+\eta^T\sum u(x_n)

解は\sum u(x_n)にのみ依存する((2.194)の十分統計量)ため、データ集合全体を保持する必要はなく\sum u(x_n)のみ保持してればよい。

 

2.4.2共役事前分布

一般に、ある確率分布p(x|\eta)について、尤度関数と共役な事前分布p(\eta)を求めることは可能である。指数型分布族の場合(2.229)。\nuは有効な事前の仮想観測値の数と解釈できる。

 

2.4.3無情報事前分布

分布についての知見がない場合、事後分布への影響がなるべく少ないようにしたい→無情報事前分布を使用する。

パラメータ\lambdaで定められる分布p(x|\lambda)について事前分布p(\lambda)=constを用いる場合、問題点が二つ。

問題点1:\lambdaの定義域が有界でないなら、\lambda上での積分が発散し事前分布は正しく正規化できない(変則事前分布)。変則事前分布でもそれから得られる事後分布が適切(正規化可能)であれば用いられることが多い。

問題点2:非線形な変数変換をしたとき。変換前の確率密度が一定でも変換後の確率密度が一定とならない場合がある。例:(2.231)。

無情報事前分布の例

・(2.232)で表される確率密度。平行移動不変性を持つ。位置パラメータの例はガウス分布の平均\muガウス分布で無情報事前分布(\sigma_0^2→\infty)を用いると、(2.141)\mu_N=\mu_{ML},\,(2.142)\frac{1}{\sigma^2}=\frac{N}{\sigma^2}←事前分布が影響してない。

・(2.236)で表される確率密度。尺度不変性を持つ。尺度パラメータの例は位置パラメータ\muを考慮済みのガウス分布標準偏差\sigma(平均既知、分散未知)。無情報事前分布(a_0=b_0=0)を用いると(2.150)a_N=\frac{N}{2},\,(2.151)b_N=\frac{1}{\sigma^2}=\frac{N}{2}\sigma_{ML}^2←事前分布が影響してない。

 ※(2.240)は\hat\sigma=c\sigma,\hat{x}=c(x-\mu)とすれば(2.237)の形になる

 

p(\rm{ln}\,\sigma)=\rm{const}について

y=\rm{ln}\,\sigma→\frac{\rm{d}\sigma}{\rm{d}y}=\frac{\rm{d}\exp(y)}{\rm{d}y}=\sigma

p(\rm{ln}\,\sigma)=p(\sigma)\frac{\rm{d}\sigma}{\rm{d}y}=p(\sigma)\sigma\propto\frac{1}{\sigma}{\sigma}

 

p(\lambda)\propto 1/\lambdaについて

\lambda=1/\sigma^2→\frac{\rm{d}\sigma}{\rm{d}\lambda}=\mp\frac{1}{2}\lambda^{-3/2}

p(\lambda)=p(\sigma)\left|\frac{\rm{d}\sigma}{\rm{d}\lambda}\right|\propto\lambda^{1/2}\lambda^{-3/2}=1/\lambda

 

 

 

PRMLメモ 2章 2.3.6~2.3.9

2.3.6ガウス分布に対するベイズ推論

尤度関数の共役事前分布となるように事前分布を選ぶ。

取り扱いが便利なので分散ではなく精度(\lambda\equiv1/\sigma^2)を使用する。

(2.151)観測数2a_0,\,N/2\sigma^2_{ML}=b_0より分散がa_0/b_0であるような観測値という解釈。

事前分布

条件 求める事前分布 一変数ガウス分布 D次元多変数ガウス分布
精度既知、平均未知 p(\mu) ガウス分布 ガウス分布
精度未知、平均既知 p(\lambda) ガンマ分布 ウィシャート分布
精度未知、平均未知 p(\mu,\lambda) 正規―ガンマ分布 正規―ウィシャート分布

 

2.3.7スチューデントのt分布

 標本平均と分散から母平均の区間推定をするときに使われるやつ。

 

2.3.8周期変数

(2.169)\tan\overline{\theta}=\overline{x_2}/\overline{x_1}より。

(2.173)共分散行列\Sigma=\sigma^2Iよりx_1x_2は独立。p(x_1,x_2)=p(x_1)p(x_2)

(2.185)(2.181)をmについて微分すると-NI’_0(m)/I_0(m)+\sum\cos(\theta_n-\theta_0)。これを0とおく。

ベッセル関数の積分表示I_n(m)=\frac{1}{2\pi}\int_0^{2\pi}\exp\{m\cos\theta\}\cos(n\theta)d\theta

 

2.3.9混合ガウス分布

(2.192)p(k|x)=p(x|k)p(k)/p(x)より。

 

 

PRMLメモ 2章 2.3.3、2.3.5

2.3.3ガウス変数に対するベイズの理論

目的:ガウス周辺分布p(x)、平均がxの線形関数、共分散はxとは独立であるガウス条件付き分布p(y|x)が既知。これらから周辺分布p(y)と条件付き分布p(x|y)を求める。

 (2.109)~(2.112):(2.103)、(2.106)にて\left(\begin{array}{c}y\\x\end{array}\right)となるようにまとめれば(2.94)~(2.98)をそのまま使える。

 

2.4.3ガウス分布最尤推定

(2.118)\mathrm{ln}\,\left(\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}\right)^N\prod_{n=1}^{N}\exp\left\{-\frac{1}{2}(x_n-\mu)^T\Sigma^{-1}(x_n-\mu)\right\}

(2.119)右側はx^T\Sigma^{-1} x=Tr(x^T\Sigma^{-1} x)=Tr(\Sigma^{-1} xx^T)から?

(2.120)\frac{\partial }{\partial x}x^TAx=(A+A^T)xより

 

2.3.5逐次推定

目的:逐次推定で最尤推定解を求める

(2.134)各x_nは観測値N個中の一つなのでp(x_n)=1/N

(2.134)が0になる最尤推定\theta_{ML}を逐次的に求めたい。

逐次的な方法でf(\theta)\equiv \mathbb{E}[ z|\theta]=0となる\thetaを見つけることができる Robbins-Monroアルゴリズムを使用する。

\mathbb{E}[ z|\theta]=\mathbb{E}_x[-\frac{\partial}{\partial \theta}\mathrm{ln}\,p(x|\theta)],\,z(\theta^{(N-1)})=[-\frac{\partial}{\partial \theta^{(N-1)}}\mathrm{ln}\,p(x_N|\theta^{(N-1)})]として(2.135)

 (2.136)を(2.135)に代入

\mu_{ML}^N=\mu_{ML}^{(N-1)}+a_{N-1}\left[\frac{1}{\sigma^2}(x_N-\mu_{ML}^{(N-1)})\right]

a_{(N-1)}=\sigma^2/Nとすれば(2.126)

 

PRMLメモ 2章 2.3.1、2.3.2

目的:同時分布p({\bf x_a,x_b})ガウス分布であれば条件付き分布p({\bf x_a}|{\bf x_b})ガウス分布になることを示す。

方針:指数部分が二次形式であればガウス分布p({\bf x_a}|{\bf x_b})の指数部分が{\bf x_a}の二次形式であることを示す。

p({\bf x_a}|{\bf x_b})=\frac{p({\bf x_a,x_b})}{p({\bf x_b})}p({\bf x_a,x_b})の指数部分を整理して{\bf x_a}の二次形式であれば条件付き分布の指数部分も二次形式→ガウス分布。ということだと思う。

\bf x^T\Sigma\muはスカラなので\bf x^T\Sigma\mu=(x^T\Sigma\mu)^T=\mu^T\Sigma^Tx

あとは数式を整理すればよい。

 

目的:同時分布p({\bf x_a,x_b})ガウス分布であれば周辺分布p(x_a)=\int p(x_a,x_b)dx_bガウス分布になることを示す。

方針:(2.70)からx_bについてガウス分布の形式に整理して積分消去。残ったx_aについて2.3.1と同じように整理する。

積分の結果に関係あるのは\Lambda_{bb}。平均(\Lambda^{-1}_{bb}m, x_aを含んでいる)は積分の結果に関係なし。

 

PRMLメモ 2章 2.2~2.3

  • 2.2多値変数

\bf xはどれかの要素が1、他が0のベクトル

\sum_{\bf x}の{\bf x}は(1,0,0,\dots,0)^T,(0,1,0,\dots,0)^T,\dots,(0,0,0,\dots,1)^T

(2.34)の係数は(1.94)と同じ考え方か

 

(2.46)固有ベクトルに定数をかけても固有ベクトル(\Sigma \alpha \bf{ u}_i=\lambda_i \alpha {\bf u}_i)→固有ベクトルに定数をかけて {\bf u}_i^T{\bf u}_i=1となるようにできる。

(2.53){\bf y= U(x-u)}→{\bf x=U^Ty+u}\\→x_i=u_{1i}y_1+u_{2i}y_2+ \dots +u_{ji}y_j+\dots+u_{iD}y_d+\mu_i→\frac{\partial x_i}{\partial y_j}=u_{ji}

(2.61)\sum_i \sum_j a_i b_j=\sum_i a_i (b_1+b_2+\dots+b_D)=\sum_i a_i \sum_j b_j

(2.63)共分散だけど分散\mathbb{E}[(x_i-\mu_i)(x_i-\mu_i)]も含んでる

 

平均0、分散1のガウス分布\muだけ平行移動、(u_1,u_2,\dots,u_D)の座標系にそれぞれ(\lambda^{1/2}_1,\lambda^{1/2}_2,\dots,\lambda^{1/2}_D)だけ縮尺をかえてマッピングしている。

\Sigma=diag(\sigma^2_i)とすれば平行移動と縮尺変更のみで座標系は変わらない。(座標軸に沿った楕円)

\Sigma=\sigma^2\bf Iとすればそれぞれの座標系に対して同じ縮尺変更(球面)

 

ガウス分布の問題点

・多峰形の分布をうまく近似できない

・パラメータが多すぎる

→洗剤変数を導入する((2.3.9)、12章)

 

 

 

 

PRMLメモ 2章 ~2.1.1

PRMLお勉強中。メモ。

 

第二章確率分布

観測データ集合に基づいて適切なパラメータの値を決める

頻度主義:尤度関数を最適化してパラメータの値を決める。

ベイズ主義:事前分布を導入。観測データが与えられたときのパラメータの事後分布を計算する。

 

2.1二値変数

xは0,1しかとらないことに注意。

十分統計量:パラメータを決めるのに十分な観測値?

 

2.1.1ベータ分布

二項分布をベイズ主義的に扱うためにパラメータ\muの事前分布p(\mu)を導入する。

・事後分布は事前分布と尤度関数(\mu^x(1-\mu)^{1-x})の積に比例する

・事前分布を尤度関数と同じような形式とすれば事後分布は事前分布と同じ形式になる(共役性)ので取り扱いやすい

→ベータ分布を事前分布とする

※事前分布が都合のよい形式になるように決めた。

 

(2.17)     p(\mu|m,l,a,b)=\frac{p(m,l|\mu,a,b)p(\mu|a,b)}{p(m,l,a,b)}

p(m,l|\mu,a,b):尤度関数、p(\mu|a,b):事前分布、m,l:観測値、a,b:超パラメータ

 ごちゃごちゃ文字が増えてるけどそれぞれ何を意味してるのか(何がパラメータで何が観測値)なのか注意

 

(2.19)     \mathcal D→\mu→xだからp(x=1|\mu)p(\mu|\mathcal D)。\muは確率なのでその範囲を積分。という解釈でいいのかな?