trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRML 5章演習問題 5.16~5.20

5.16

複数の出力を持つ場合の誤差関数は
\displaystyle
E=\frac{1}{2} \sum_{n} \sum_{k }(y_{nk}-t_{nk})^{2}
勾配は
\displaystyle
\nabla E=\sum_{n}\sum_{k}(y_{nk}-t_{nk})\nabla y_{nk}
ヘッセ行列は
\displaystyle
H=\nabla \nabla E=\sum_{n}\sum_{k}\nabla y_{nk}(\nabla y_{nk})^{T}+\sum_{n}\sum_{k}(y_{nk}-t_{nk})\nabla \nabla y_{nk}
近似すると
\displaystyle
H=\sum_{n}\sum_{k}\nabla y_{nk}(\nabla y_{nk})^{T}=\sum_{n} B_{n}B_{n}^{T}\\
(B_{n})_{(l,m)}=\frac{\partial y_{nm}}{\partial w_{l}}
f:id:trsing:20190209115733j:plain

5.17

\displaystyle
\frac{\partial E}{\partial w_{s}}=\int \int (y(x,w)-t)\frac{\partial y(x,w)}{\partial w_{s}}p(x,t) dx dt\\
\frac{\partial }{\partial w_{r}}\frac{\partial E}{\partial w_{s}}=
\int \int \frac{\partial y(x,w)}{\partial w_{r}}\frac{\partial y(x,w)}{\partial w_{s}}p(x,t) dx dt
+\int \int (y(x,w)-t)\frac{\partial^{2} y(x,w)}{\partial w_{r} \partial w_{s}}p(x,t) dx dt\\ \hspace{30pt}=
\int \frac{\partial y(x,w)}{\partial w_{r}}\frac{\partial y(x,w)}{\partial w_{s}}\int p(x,t) dt dx
+\int \frac{\partial^{2} y(x,w)}{\partial w_{r} \partial w_{s}}y(x,w)\int p(x,t) dt dx
-\int \frac{\partial^{2} y(x,w)}{\partial w_{r} \partial w_{s}}\int tp(x,t) dt dx\\ \hspace{30pt}=
\int \frac{\partial y(x,w)}{\partial w_{r}}\frac{\partial y(x,w)}{\partial w_{s}}p(x) dx
+\int \frac{\partial^{2} y(x,w)}{\partial w_{r} \partial w_{s}}y(x,w) p(x) dx
-\int \frac{\partial^{2} y(x,w)}{\partial w_{r} \partial w_{s}}y(x,w) p(x) dx\\ \hspace{30pt}=
\int \frac{\partial y(x,w)}{\partial w_{r}}\frac{\partial y(x,w)}{\partial w_{s}}p(x) dx\\
※(1.89)からy(x)p(x)=\int tp(x,t)dt

5.18

入力iから出力kへ直接つながる結合に相当するパラメータをu_{ki}と置くと(5.64)より
\displaystyle
y_{k}=a_{k}=\sum_{i} u_{ki}x_{i}+\sum_{j} w_{kj}^{(2)}z_{j}
誤差関数の追加されたパラメータに関する微分の方程式は
\displaystyle
\frac{\partial E}{\partial u_{ki}}=\frac{\partial E}{\partial a_{k}}\frac{\partial a_{k}}{\partial u_{ki}}=(y_{k}-t_{k})x_{i}

5.19

あるデータx_{n}に対してy_{n}=\sigma(a_{n})
ある重みw_{i}が変更されるとすべてのデータに対しての変更となるので \frac{\partial E}{\partial w_{i}}=\sum_{n}\frac{\partial E}{\partial a_{n}}\frac{\partial a_{n}}{\partial w_{i}}
よって
\displaystyle
\nabla_{w} E=\sum_{n} \frac{\partial E}{\partial a_{n}} \nabla_{w} a_{n}=
\sum_{n}\left(-\sum_{i} \frac{\partial}{\partial a_{n}} \{t_{i} \ln y_{i}+(1-t_{i}) \ln(1-y_{i}) \} \right)  \nabla_{w} a_{n}\\ \hspace{30pt}=
\sum_{n}\left(y_{n}-t_{n} \right)  \nabla_{w} a_{n}
i \neq nのとき\frac{\partial y_{i}}{\partial a_{n}}=0
f:id:trsing:20190209145111j:plain

5.20

f:id:trsing:20190209152002j:plain f:id:trsing:20190209152042j:plain