trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 4.1.7~4.2.4

4.1.7 パーセプトロンアルゴリズム

誤分類された場合w^{T}\phi_{n}t_{n}は負になる。
判定基準が正負なので定数を掛けても変化しない

(\phi_{n}t_{n})^{T}\phi_{n}t_{n}=||\phi_{n}t_{n}||^{2}

4.2 確率的生成モデル

線形決定境界をどのように生成するか示す。
ロジスティックシグモイド関数、ソフトマックス関数の導入。ソフトマックス関数はロジスティックシグモイド関数の多クラスへの一般化とみなすことができる。

(4.61)

\exp(-a)=\frac{1-\sigma(a)}{\sigma(a)}\\
a=\ln\frac{\sigma(a)}{1-\sigma(a)}

4.2.1 連続値入力

仮定
・クラスの条件付確率密度がガウス分布であると仮定する。
・すべてのクラスが同じ共分散行列を共有すると仮定する。
を置くと
・2クラスの場合、決定境界は入力関数xで線形になる。
・Kクラス分類の一般的な場合もxの線形関数として定義される。
共分散行列が共通ではない場合、線形決定境界は2次となる

(4.65)

p(C_{1}|x)=\sigma(a)\\
a=\ln\frac{p(x|C_{1})p(C_{1})}{p(x|C_{2})p(C_{2})}
p(x|C_{1})p(x|C_{2})の共通項( \frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}
\exp(-\frac{1}{2}x^{T}\Sigma^{-1}x)) をキャンセル。

(4.68)
(4.62)より分子分母の共通項(\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}
,\,\exp(-\frac{1}{2}x^{T}\Sigma^{-1}x))をキャンセルする。

4.2.2 最尤解

データ集合\{x_{n},t_{n}\}から事前分布p(C_{k})と各クラスの条件付確率密度(p(x_{n}|C_{k})ガウス分布)のパラメータを求める。

まぎらわしいので\piじゃなくて\pi'と書く。
(4.71)の対数尤度関数。
\ln p(t,X|\pi',\mu_{1},\mu_{2},\Sigma)=\sum[t_{n}\ln\pi'+(1-t_{n})\ln(1-\pi')-\frac{D}{2}\ln2\pi-\frac{1}{2}\ln|\Sigma|\\
\,\,-\frac{t_{n}}{2}(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})-\frac{1-t_{n}}{2}(x_{n}-\mu_{2})^{T}\Sigma^{-1}(x_{n}-\mu_{2})]

\pi'微分
\sum(\frac{t_{n}}{\pi'}-\frac{1-t_{n}}{1-\pi'})=\sum\frac{t_{n}-\pi'}{\pi'(1-\pi')}=0\\
\sum\pi'=\sum t_{n}\\
\pi'=\frac{1}{N}\sum t_{n}

\mu_{1}微分

\sum t_{n}\Sigma^{-1}(x_{n}-\mu_{1})=0\\
\sum t_{n}\mu_{1}=\sum t_{n}x_{n}\\
\mu_{1}=\frac{1}{N_{1}}\sum t_{n} x_{n}

\mu_{2}微分

\sum (1-t_{n}) \Sigma^{-1}(x_{n}-\mu_{2})=0\\
\sum (1-t_{n}) \mu_{2}=\sum (1-t_{n})x_{n}\\
\mu_{2}=\frac{1}{N_{2}}\sum (1-t_{n}) x_{n}

\Sigmaについて整理すると

\sum t_{n}(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})\\
\sum_{n \in C_{1}} Tr[(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})]\\
\sum_{n \in C_{1}} Tr[\Sigma^{-1}(x_{n}-\mu_{1})(x_{n}-\mu_{1})^{T}]\\
Tr[\Sigma^{-1}\sum_{n \in C_{1}}(x_{n}-\mu_{1})(x_{n}-\mu_{1})^{T}]
より(4.77)

\Sigma微分すると

\frac{\partial}{\partial X} \ln|X|=(X^{-1})^{T}\\
\frac{\partial}{\partial X} Tr[AX^{-1}B]=-(X^{-1}BAX^{-1})^{T}
より

-N/2(\Sigma^{-1})^{T}+N/2(\Sigma^{-1}S\Sigma{-1})^{T}=0\\
(\Sigma^{-1}S)^{T}=I\\
\Sigma=S

4.2.3 離散特徴

特徴が離散値x_{i}の場合。

4.2.4 指数型分布

これまでの話( ガウス分布と離散値入力の場合、クラスの事後確率はロジスティックシグモイド関数またはソフトマックス活性化関数の一般化線形モデルで与えられる) は仮定(クラスの条件付確率密度p(x|C_{k})が指数型分布族のメンバーである)から得られる結果の特殊な場合。

指数型分布族(4.83)にてu(x)=xとなるような分布の場合、クラスの事後確率はxの線形関数のロジスティックシグモイド関数、ソフトマックス関数で与えられる。

(4.86)
(4.62)から共通項(\frac{1}{s}h(\frac{1}{s}x))を消してる