trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 5.5.7

5.5.7 ソフト重み共有

ソフト重み共有の導入と解釈

導入

5.5.6節の重み共有は、一定のグループに属する重みを等しくするという制限を加えて、ネットワークの有効な複雑さを削減する手法。しかし、制限が厳しく特別な問題にしか適用できない。

ソフト重み共有はこの制限を正則化項の導入に置き換えて緩くする手法。

説明

正則化項は、同じグループに属する重みが似たような値を取りやすくなるように定める。

次の項目は学習過程の一部として決定される。

  • 重みのグループ分け(\pi)
  • グループでの重みの平均値(\mu)
  • グループ内での重みの広がり具合(\sigma)

※重みのグループ数は調整可能なハイパーパラメータ。

確率分布として混合ガウス分布(5.136),(5.137)を用い、正則化項は(5.138)となる。
通常の最適化アルゴリズム(共役勾配法準ニュートン法など)を用い、重みw_{i}と混合パラメータ\{\pi_{j},\mu_{j},\sigma_{j}\}の同時最適化を行う。
※重みが定数の場合、混合モデルのパラメータは9章のEMアルゴリズムを用いて決定できる。

誤差関数の微分の解釈

誤差関数を最小化するために、調整可能なパラメータに関する微分を評価する

パラメータ 微分 解釈
重みw_{i} (5.141) 各重みをj番目のガウス分布の中心方向へ引き寄せる
中心\mu_{j} (5.142) 各重みが\mu_{j}を重みの平均値方向へ引っ張る
分散\sigma_{j} (5.143) \sigma_{j}を対応する中心\mu_{j}まわりの重み分散の方へ重みを付けて動かしている
混合係数\eta_{j} (5.147) \pi_{j}j番目の要素の平均事後分布方向へ引き寄せられる

\sigmaについて
実際の実装では(5.144)が導入され、最小化は\xi_{j}について行われる。理由は\sigma_{j}が正の値であることを保証するため。\sigma_{j}がゼロに近づいて、ガウス分布が重みパラメータの値の1つに収縮することを避ける効果もある。
\displaystyle
\hspace{30pt}\frac{\partial \Omega}{\partial \xi_{j}}=
\frac{\partial \Omega}{\partial \sigma_{j}}
\frac{\partial \sigma}{\partial \xi_{j}}=
\sum_{i} \gamma_{j}(w_{i})\frac{1}{2}\left(1-\frac{(w_{i}-u_{j})^{2}}{\exp(\xi)}\right)

混合係数について
混合係数には制約(5.145)を考慮する必要がある。補助変数\{\eta_{j}\}の集合を用いて(5.146)で表されるソフトマックス関数とすると正則化誤差関数の微分は(5.147)。

(5.141)

f:id:trsing:20190223195541j:plain

(5.142)

f:id:trsing:20190223195703j:plain

(5.143)

f:id:trsing:20190223195833j:plain

(5.147)

f:id:trsing:20190223200023j:plain