trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 5.2

5.2 ネットワーク訓練

ニューラルネットワークの出力を確率的に解釈すると、出力ユニットの非線形活性化関数の選択と誤差関数により明確な理由付けができるようになる。

それぞれの問題と、問題に対応する非線形活性化関数と誤差関数

問題 出力ユニットの活性化関数 誤差関数
回帰問題 線形出力関数 二乗和誤差
2クラス分類問題 ロジスティックシグモイド関数 交差エントロピー誤差関数
多クラス分類問題 ソフトマックス関数 多クラス交差エントロピー誤差関数
回帰問題

目標値はガウス分布(5.12)に従うとする。
任意のxからyへの連続関数を近似できるため、出力ユニットの活性化関数は恒等写像で良い。
N個の独立同分布に従う観測値と目標値からなるデータ集合が与えられた場合、負の対数尤度で与えられる誤差関数は(5.13)となる。 ここからwについて考えると二乗和誤差関数(5.14)となる。

目標変数が複数ある場合、仮定をおくと目標値の条件付き分布は(5.16)で与えられ、尤度を最大化する重みは二乗和誤差関数(5.11)を最小化することで得られる。

2クラス分類問題

目標変数tで、t=1がクラスC_{1}t=0がクラスC_{2}を表すとする。
0\leq y\leq 1となるようにロジスティックシグモイド関数を活性化関数とする。
y(x,w)を条件付確率p(C_{1}|x)と解釈すると、目標の条件付き分布はベルヌーイ分布(5.20)となる。負の対数尤度で与えられる誤差関数は誤差関数は交差エントロピー誤差関数(5.21)となる。

K個の異なる2クラス分類問題を解く時は、条件付き分布は(5.22)、誤差関数は(5.22)となる。

多クラス分類問題

1-of-K符号化法で表すとy_{k}(x,w)=p(t_{k}=1|x)と解釈でき、誤差関数は多クラス交差エントロピー誤差関数(5.24)となる。出力ユニットの活性化関数をソフトマックス関数とすると0\leq y_{k}\leq 1,\,\sum_{k}y_{k}=1を満たす。

y_{k}(x,w)はすべてのa_{k}(x,w)に定数を加えても分子分母でキャンセルされるため不変である。この退化を除くためには適当な正則化項を誤差関数に加えればよい。

ここで考えた問題はいずれも、誤差関数の特定の出力ユニットの関数に関する微分は(5.18)となる。この性質は5.3節で誤差逆伝播を議論する際に利用される。