trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 5章演習問題 5.27~5.32

5.27

y(x+\xi)\xi=0のまわりでテイラー展開すると
f:id:trsing:20190301131921j:plain

これを f:id:trsing:20190301132124j:plain
に注意して(5.130)に代入すると
f:id:trsing:20190301132238j:plain

5.28

修正は畳み込み層の重みに関する導関数にのみ作用する。 特徴マップ(インデックスm)中のユニットへの入力はそれぞれ異なるが、共通する重みベクトルw^{(m)}を持つ。 したがって、特徴マップ内のすべてのユニットからの誤差\delta^{(m)}は対応する重みベクトルの導関数に寄与するだろう。 この場合(5.50)は次のようになる
\displaystyle{
\frac{\partial E_{n}}{\partial w_{i}^{(m)}}=\sum_{j}\frac{\partial E_{n}}{\partial a_{j}^{(m)}}{\partial a_{j}^{(m)}}{\partial w_{i}^{(m)}}=
\sum_{j}\delta_{j}^{(m)}z_{ji}^{(m)}
}
 a_{j}^{(m)}:特徴マップmj個目のユニットの活性。
 w_{j}^{(m)}:対応する特徴ベクトルのi番目の要素。
 z_{ji}^{(m)}:特徴マップmj個目のユニットに対するi個目の入力。ネットワークへの入力(x_{i})か前の層の出力。

一般に、\delta_{j}^{(m)}=\partial E_{n} / \partial a_{j}^{(m)}は(5.55)を用いて後続層のユニットの\deltaから逆順に計算されることに注意しよう。 もし畳み込み層の前に層があるなら、標準的な逆伝播方程式を適用される。 畳み込み層の重みは、前の層のユニットの\deltaを計算するために、独立したパラメータであるかのように扱うことができる。

5.29

f:id:trsing:20190223195541j:plain

5.30

f:id:trsing:20190223195703j:plain

5.31

f:id:trsing:20190223195833j:plain

5.32

\pi_{k}はソフトマックス関数で\eta_{j}に関する微分は演習4.17参照

f:id:trsing:20190223200023j:plain