PRML 4.1.7～4.2.4 - trsing’s diary

4.1.7 パーセプトロン アルゴリズム

誤分類された場合 $w^{T}\phi_{n}t_{n}$ は負になる。
判定基準が正負なので定数を掛けても変化しない

$(\phi_{n}t_{n})^{T}\phi_{n}t_{n}=||\phi_{n}t_{n}||^{2}$

4.2 確率的生成モデル

線形決定境界をどのように生成するか示す。
ロジスティックシグモイド関数、ソフトマックス関数の導入。ソフトマックス関数はロジスティックシグモイド関数の多クラスへの一般化とみなすことができる。

(4.61)
$\exp(-a)=\frac{1-\sigma(a)}{\sigma(a)}\\ a=\ln\frac{\sigma(a)}{1-\sigma(a)}$

4.2.1 連続値入力

仮定
・クラスの条件付確率密度がガウス分布であると仮定する。
・すべてのクラスが同じ共分散行列を共有すると仮定する。
を置くと
・2クラスの場合、決定境界は入力関数 $x$ で線形になる。
・Kクラス分類の一般的な場合も $x$ の線形関数として定義される。
共分散行列が共通ではない場合、線形決定境界は2次となる

(4.65)
$p(C_{1}|x)=\sigma(a)\\ a=\ln\frac{p(x|C_{1})p(C_{1})}{p(x|C_{2})p(C_{2})}$
$p(x|C_{1})$ と $p(x|C_{2})$ の共通項( $\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}} \exp(-\frac{1}{2}x^{T}\Sigma^{-1}x)$ ) をキャンセル。

(4.68)
(4.62)より分子分母の共通項( $\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}} ,\,\exp(-\frac{1}{2}x^{T}\Sigma^{-1}x)$ )をキャンセルする。

4.2.2 最尤解

データ集合 $\{x_{n},t_{n}\}$ から事前分布 $p(C_{k})$ と各クラスの条件付確率密度( $p(x_{n}|C_{k})$ 、ガウス分布)のパラメータを求める。

まぎらわしいので $\pi$ じゃなくて $\pi'$ と書く。
(4.71)の対数尤度関数。
$\ln p(t,X|\pi',\mu_{1},\mu_{2},\Sigma)=\sum[t_{n}\ln\pi'+(1-t_{n})\ln(1-\pi')-\frac{D}{2}\ln2\pi-\frac{1}{2}\ln|\Sigma|\\ \,\,-\frac{t_{n}}{2}(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})-\frac{1-t_{n}}{2}(x_{n}-\mu_{2})^{T}\Sigma^{-1}(x_{n}-\mu_{2})$ ]

$\pi'$ で微分
$\sum(\frac{t_{n}}{\pi'}-\frac{1-t_{n}}{1-\pi'})=\sum\frac{t_{n}-\pi'}{\pi'(1-\pi')}=0\\ \sum\pi'=\sum t_{n}\\ \pi'=\frac{1}{N}\sum t_{n}$

$\mu_{1}$ で微分
$\sum t_{n}\Sigma^{-1}(x_{n}-\mu_{1})=0\\ \sum t_{n}\mu_{1}=\sum t_{n}x_{n}\\ \mu_{1}=\frac{1}{N_{1}}\sum t_{n} x_{n}$

$\mu_{2}$ で微分
$\sum (1-t_{n}) \Sigma^{-1}(x_{n}-\mu_{2})=0\\ \sum (1-t_{n}) \mu_{2}=\sum (1-t_{n})x_{n}\\ \mu_{2}=\frac{1}{N_{2}}\sum (1-t_{n}) x_{n}$

$\Sigma$ について整理すると
$\sum t_{n}(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})\\ \sum_{n \in C_{1}} Tr[(x_{n}-\mu_{1})^{T}\Sigma^{-1}(x_{n}-\mu_{1})]\\ \sum_{n \in C_{1}} Tr[\Sigma^{-1}(x_{n}-\mu_{1})(x_{n}-\mu_{1})^{T}]\\ Tr[\Sigma^{-1}\sum_{n \in C_{1}}(x_{n}-\mu_{1})(x_{n}-\mu_{1})^{T}]$ より(4.77)

$\Sigma$ で微分すると
$\frac{\partial}{\partial X} \ln|X|=(X^{-1})^{T}\\ \frac{\partial}{\partial X} Tr[AX^{-1}B]=-(X^{-1}BAX^{-1})^{T}$
より
$-N/2(\Sigma^{-1})^{T}+N/2(\Sigma^{-1}S\Sigma{-1})^{T}=0\\ (\Sigma^{-1}S)^{T}=I\\ \Sigma=S$