trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 4.3~4.3.3

4.3 確率的識別モデル

一般化線形モデルの関数形式を陽に仮定し、パラメータを直接決定する方法。
条件付確率密度分布p(C_{k}|x)を通じて定義される尤度関数を最大化する(識別学習の一形態)。

利点
 決めるべき適応パラメータが少ない。
 真の確率分布をうまく近似できない場合でもよい性能を示す場合がある。

4.3.1 固定基底関数

基底関数ベクトル\phi(x)を使って入力の非線形変換を行っておけばこれまでのアルゴリズムを同じように適用できる。

決定境界は特徴空間\phi(x)において線形だが、もとの入力空間xにおいては非線形の決定境界となる。特徴空間\phi(x)で線形分離可能であるクラスが、もとの観測空間xで線形分離可能である必要はない。

線形変換\phi(x)はクラス間の重なりを取り去ることはできないが、非線形性を適切に選択すれば、事後確率のモデル化が簡単になる

4.3.2 ロジスティック回帰

(4.87):ロジスティック回帰。分類のためのモデル。
M次元特徴空間\phiにおいて調整可能なパラメータ数はM個。 ガウス分布の場合次元Mの二乗で増加するため、ロジスティック回帰のほうが有利。

パラメータを最尤法を用いて決定するために交差エントロピー誤差関数を与え、これを微分すると(4.91)。これは(3.13)と同じ形。ただしロジスティックシグモイド関数非線形性のため最尤解を解析的に導出できない。

線形分離可能なデータ集合に対しては過学習を起こすので注意。

ガウス分布のパラメータ数 : 各クラスの平均(\mu_{1},\mu_{2})に対してM個ずつ。共分散行列は共通、対象なのでM(M+1)/2

(4.88):
(4.61)を使用して

\frac{d\sigma}{da}=\frac{\exp(-a)}{(1+\exp(-a))^{2}}=\frac{\frac{1-\sigma}{\sigma}}{(1+\frac{1-\sigma}{\sigma})^{2}}=\sigma(1-\sigma)

(4.91):
(4.88)を使用して

\frac{\partial}{\partial w}\ln\sigma(w^{T}\phi_{n})=
\frac{\partial}{\partial \sigma}\ln\sigma
\frac{\partial \sigma}{\partial a}
\frac{\partial a}{\partial w}
=\frac{1}{\sigma}\sigma(1-\sigma)\phi_{n}
=(1-\sigma)\phi_{n}

\frac{\partial}{\partial w}\ln(1-\sigma(w^{T}\phi_{n}))=
\frac{\partial}{\partial 1-\sigma}\ln(1-\sigma)
\frac{\partial (1-\sigma)}{\partial a}
\frac{\partial a}{\partial w}
=\frac{1}{1-\sigma}(-\sigma)(1-\sigma)\phi_{n}
=-\sigma\phi_{n}

4.3.3 反復最重み付け最小二乗

ロジスティック回帰はロジスティックシグモイド関数非線形性により、最尤解を解析的に導出することはできない。
しかし、誤差関数は凸関数なので、唯一の最小解をもち、ニュートン‐ラフソン法に基づく反復最適化手順を用いて最小化できる。

線形回帰モデル(3.3)にニュートン‐ラフソン法を適用すると(4.95)となりこれは標準的な最小二乗解となる。

ロジスティック回帰における交差エントロピー誤差関数にニュートン‐ラフソン法を適用すると(4.99)となる。パラメータベクトルwが更新されるたびに重みづけ行列Rの再計算が必要なため、反復最重み付け最小二乗法として知られている。

(4.101):

t\in\{0,1\}\\
p(t|w)=y^{t}(1-y)^{1-t}\\
E[t]=\int tp(t|w) dt=y

(4.103):

\frac{da}{d y}=\frac{da}{d \sigma}=\frac{1}{\sigma(1-\sigma)}=\frac{1}{y(1-y)}