PRML 4.3～4.3.3 - trsing’s diary

4.3 確率的識別モデル

一般化線形モデルの関数形式を陽に仮定し、パラメータを直接決定する方法。
条件付確率密度分布 $p(C_{k}|x)$ を通じて定義される尤度関数を最大化する(識別学習の一形態)。

利点
　決めるべき適応パラメータが少ない。
　真の確率分布をうまく近似できない場合でもよい性能を示す場合がある。

4.3.1 固定基底関数

基底関数ベクトル $\phi(x)$ を使って入力の非線形変換を行っておけばこれまでのアルゴリズムを同じように適用できる。

決定境界は特徴空間 $\phi(x)$ において線形だが、もとの入力空間 $x$ においては非線形の決定境界となる。特徴空間 $\phi(x)$ で線形分離可能であるクラスが、もとの観測空間 $x$ で線形分離可能である必要はない。

線形変換 $\phi(x)$ はクラス間の重なりを取り去ることはできないが、非線形性を適切に選択すれば、事後確率のモデル化が簡単になる

4.3.2 ロジスティック回帰

(4.87)：ロジスティック回帰。分類のためのモデル。
$M$ 次元特徴空間 $\phi$ において調整可能なパラメータ数は $M$ 個。ガウス分布の場合次元 $M$ の二乗で増加するため、ロジスティック回帰のほうが有利。

パラメータを最尤法を用いて決定するために交差エントロピー誤差関数を与え、これを微分すると(4.91)。これは(3.13)と同じ形。ただしロジスティックシグモイド関数の非線形性のため最尤解を解析的に導出できない。

線形分離可能なデータ集合に対しては過学習を起こすので注意。

ガウス分布のパラメータ数：各クラスの平均( $\mu_{1},\mu_{2}$ )に対して $M$ 個ずつ。共分散行列は共通、対象なので $M(M+1)/2$ 。

(4.88)：
(4.61)を使用して
$\frac{d\sigma}{da}=\frac{\exp(-a)}{(1+\exp(-a))^{2}}=\frac{\frac{1-\sigma}{\sigma}}{(1+\frac{1-\sigma}{\sigma})^{2}}=\sigma(1-\sigma)$

(4.91)：
(4.88)を使用して
$\frac{\partial}{\partial w}\ln\sigma(w^{T}\phi_{n})= \frac{\partial}{\partial \sigma}\ln\sigma \frac{\partial \sigma}{\partial a} \frac{\partial a}{\partial w} =\frac{1}{\sigma}\sigma(1-\sigma)\phi_{n} =(1-\sigma)\phi_{n}$
$\frac{\partial}{\partial w}\ln(1-\sigma(w^{T}\phi_{n}))= \frac{\partial}{\partial 1-\sigma}\ln(1-\sigma) \frac{\partial (1-\sigma)}{\partial a} \frac{\partial a}{\partial w} =\frac{1}{1-\sigma}(-\sigma)(1-\sigma)\phi_{n} =-\sigma\phi_{n}$