trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 4.3.4~4.3.6

4.3.4 多クラスロジスティック回帰

多クラスの分布に対して事後確率p(C_{k}|\phi)は特徴変数の線形関数のソフトマックス変換で与えられる。この節では最尤法を用いて直接パラメータ\{w_{k}\}を決定する。

パラメータベクトルwに関する線形回帰モデルの対数尤度関数の微分は誤差y_{n}-t_{n}と特徴ベクトル\phi_{n}との積になる。これは今回に限らずもっと一般的な結果。(4.3.6節で見る)

多クラス問題用のIRLSアルゴリズムを得るために必要なヘッセ行列のブロックj,kは(4.110)となる。

(4.106):
f:id:trsing:20181213223740j:plain

(4.109): f:id:trsing:20181213225102j:plain

(4.110):
f:id:trsing:20181213225930j:plain

4.3.5 プロビット回帰

指数型分布族以外のタイプの識別確率モデルについて調べる。 ただし、2クラスの場合で(4.111)の範囲で議論を行う。

プロビット回帰について。プロビット活性化関数に基づく一般化線形モデル。S字形。ロジスティック回帰より外れ値に対して敏感。

(4.116):
f:id:trsing:20181213233256j:plain

4.3.6 正準連結関数

これまでにいくつかのモデルで パラメータベクトルwに関する誤差関数の微分が「誤差」y_{n}-t_{n}と特徴ベクトル\phi_{n}との積になるのを見てきた。 これは正準連結関数として知られている関数を活性化関数に選び、指数型分布族の中から目的変数に対する条件付確率分布を選択することから得られる一般的な結果であることを示す。

(4.119) :
f:id:trsing:20181213233350j:plain

(4.122):

\frac{d \eta_{n}}{d y_{n}}=\frac{d \varphi(y_{n})}{d y_{n}}=\varphi'(y_{n})\\
\frac{d y_{n}}{d a_{n}}=\frac{d f(w^{T}\phi_{n})}{d a_{n}}=\frac{d f(a_{n})}{d a_{n}}=f'(a_{n})

(4.123): 
f^{-1}(y)=\varphi(y)\longrightarrow y=f(\varphi(y))\longrightarrow f'(\varphi(y))\varphi'(y)=\frac{d f(\varphi(y))}{d \varphi(y)}\frac{d\varphi(y)}{dy}=\frac{dy}{d\varphi(y)}\frac{d\varphi(y)}{dy}=1\\
a=f^{-1}(y)=\varphi(y)\\
f'(a)\varphi'(y)=\frac{d f(a)}{da}\frac{df(\varphi(y))}{dy}=\frac{d f(\varphi(y))}{d \varphi(y)}\frac{d\varphi(y)}{dy}=1