trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 5章演習問題 5.14,5.15

演習5.14

E_{n}(w)をある点w=\hat{w_{ji}}テイラー展開すると $$ E_{n}(w)\simeq E_{n}(\hat{w_{ji}})+(w-\hat{w_{ji}})^{T}E'(\hat{w_{ji}})+\frac{1}{2}(w-\hat{w_{ji}})^{T}E''(\hat{w_{ji}})(w-\hat{w_{ji}})+O(|w-\hat{w_{ji}}|^{3}) $$ w=\hat{w_{ji}}+\epsilon (w_{ji}成分のみ\epsilonだけ変動)とすると $$ E_{n}(\hat{w_{ji}}+\epsilon)\simeq E_{n}(\hat{w_{ji}})+\epsilon E'(\hat{w_{ji}})+\frac{1}{2}\epsilon^{2}E''(\hat{w_{ji}})+O(\epsilon^{3}) $$ よって $$ \frac{E_{n}(\hat{w_{ji}}+\epsilon)-E_{n}(\hat{w_{ji}}-\epsilon)}{2\epsilon}= \frac{1}{2\epsilon} (E_{n}(\hat{w_{ji}})+\epsilon E'(\hat{w_{ji}})+\frac{1}{2}\epsilon^{2}E''(\hat{w_{ji}})+O(\epsilon^{3})\\ \hspace{130pt}- (E_{n}(\hat{w_{ji}})-\epsilon E'(\hat{w_{ji}})+\frac{1}{2}\epsilon^{2}E''(\hat{w_{ji}})+O(\epsilon^{3})))\\= \frac{1}{2\epsilon} (2\epsilon E'(\hat{w_{ji}})+O(\epsilon^{3}))\\= E'(\hat{w_{ji}})+O(\epsilon^{2}) $$

演習5.15

次のようなネットワークを考える f:id:trsing:20190129231819j:plain ヤコビ行列は $$ J_{k'i'}=\frac{\partial y_{k'}}{\partial x_{i'}} $$ x_{i'}が変化するとa_{l}まで伝播するので $$ J_{k'i'}=\frac{\partial y_{k'}}{\partial x_{i'}}=\sum_{l} \frac{\partial y_{k'}}{\partial a_{l}}\frac{\partial a_{l}}{\partial x_{i'}} $$ \frac{\partial y_{k'}}{\partial a_{l}}は、各出力ユニットが個々にシグモイド活性化関数を持つ場合には(5.75)、ソフトマックス関数を持つ場合には(5.76)となる。

x_{i'}が変化するとa_{m}まで伝播するので $$ \frac{\partial a_{l}}{\partial x_{i'}}=\sum_{m}\frac{\partial a_{l}}{\partial a_{m}}\frac{\partial a_{m}}{\partial x_{i'}} $$ a_{l}=\sum_{m}w_{lm}z_{m},\,z_{m}=h(a_{m})より $$ \frac{\partial a_{l}}{\partial a_{m}}=w_{lm}h'(a_{m}) $$ \frac{\partial a_{m}}{\partial x_{i'}}は…と同様にしていくと $$ \frac{\partial a_{j}}{\partial x_{i'}}=\frac{\partial \sum_{i}w_{ji}x_{i}}{\partial x_{i'}}=w_{ji'} $$ ここから開始して計算できる。