PRML
5.38 の周辺ガウス分布 と が与えられた時のの条件付きガウス分布 より として(2.115)より 5.39 ラプラス近似により よって ※について これと(4.132)よりは(5.166) 5.40 Kクラスニューラルネットワークに対して、尤度関数は $$ \prod_{n}^{N}\prod_{k}^{K}y_…
5.7 ベイズニューラルネットワーク 多層ネットワークに対して事後分布をガウス近似して超パラメータの点推定、他のモデルとの比較を行う。回帰問題の場合、クラス分類の場合を扱う。 詳細 ベイズの枠組みでは、予測を行うにはパラメータの分布について周辺化…
5.33 関節の位置 関節の位置から見た先端の位置 先端の位置 5.34 より 5.35 式変形に を用いた。 5.36 式変形に を用いた。 5.37 (5.158) (5.160) (2.62)より であることに注意すると (5.160)はLが抜けてるような
5.6 混合密度ネットワーク 単純な回帰問題では条件付き分布をガウス分布と仮定している。 しかし、実用的な問題ではガウス分布とは全く異なる分布を用いる必要がある。 例) ロボットの終端から関節角を求める問題(図5.18)。二つの解を持つ。 人体における特…
5.27 をのまわりでテイラー展開すると これを に注意して(5.130)に代入すると 5.28 修正は畳み込み層の重みに関する導関数にのみ作用する。 特徴マップ(インデックス)中のユニットへの入力はそれぞれ異なるが、共通する重みベクトルを持つ。 したがって、特…
5.24 重みとバイアスを(5.116),(5.117)と線形変換したものに(5.115)を入力すると、 (5.113)と比較すれば同じであることがわかる (5.119),(5.120)の変換を行うと出力は 5.25 まず、 よって(5.196)は のとき (5.197)が成り立つ。 のとき(5.197)が成り立つとし…
5.5.7 ソフト重み共有 ソフト重み共有の導入と解釈 導入 5.5.6節の重み共有は、一定のグループに属する重みを等しくするという制限を加えて、ネットワークの有効な複雑さを削減する手法。しかし、制限が厳しく特別な問題にしか適用できない。 ソフト重み共有…
5.5.4 接線伝播法 やること 誤差関数に正則化項を加えて入力の変換に対する不変性をモデルに持たせる。正則化関数として、入力ベクトルを変換をした場合出力ベクトルに及ぼす影響を利用する。 詳細 変換が1つのパラメータで支配される場合、 入力ベクトルを…
5.5 ニューラルネットワークの正則化 この節でやること ニューラルネットワークの複雑さを制御する方法について。 理由 過学習を避けるため。 詳細 入出力ニュニットの数はデータ集合の次元で定まる。 隠れユニットの数は調整可能な自由パラメータで、により…
5.21 出力ユニットがK>1のとき、演習5.16から ここで、 とおけば 5.22 (5.55),(5.56)に注意して計算する (5.93)を導く (5.94)を導く (5.95)を導く 5.23 層を飛び越えた結合の重みをとする。 両方の重みが層を飛び越えた結合の場合 2層と層を飛び越えた結合の…
5.16 複数の出力を持つ場合の誤差関数は 勾配は ヘッセ行列は 近似すると 5.17 ※(1.89)から 5.18 入力から出力へ直接つながる結合に相当するパラメータをと置くと(5.64)より 誤差関数の追加されたパラメータに関する微分の方程式は 5.19 あるデータに対して…
5.4.3 ヘッセ行列の逆行列 外積による近似を用いた場合にヘッセ行列の逆行列の近似を逐次的に計算する手順 初期値を選ぶ を算出する を算出する(5.89) となるまで2,3を繰り返す ※の逆行列を見つけることになる 導出 外積を(5.86)と表記すると、 $$ H_{N+1}=\…
5.4 ヘッセ行列 目的:この節ではヘッセ行列の評価について記述する。 ニューラルコンピューティングにおいてヘッセ行列は重要な役割を持つ。役割は本文にあるとおり。 ヘッセ行列の各要素は誤差の重みに関する2階微分(5.78)。 すべての重みパラメータとバイ…
演習5.14 をある点でテイラー展開すると $$ E_{n}(w)\simeq E_{n}(\hat{w_{ji}})+(w-\hat{w_{ji}})^{T}E'(\hat{w_{ji}})+\frac{1}{2}(w-\hat{w_{ji}})^{T}E''(\hat{w_{ji}})(w-\hat{w_{ji}})+O(|w-\hat{w_{ji}}|^{3}) $$ (成分のみだけ変動)とすると $$ E_{n…
5.3.2 単純な例 誤差逆伝播の例を示す。 ・2層ネットワーク(図5.1) ・2乗和誤差関数(5.61) ・出力ユニットは線形活性化関数 ・隠れユニットはシグモイド活性化関数(5.58) ※シグモイド関数の微分は(5.60)。演習5.8参照 1.順伝播を実行する。(5.62)(5.63)(5.6…
5.3 誤差逆伝播 本節での目標:フィードフォワードニューラルネットワークについて誤差関数の勾配を効率よく評価するテクニック(誤差逆伝播)を見つけること。 ほとんどの訓練アルゴリズムでは誤差関数を最小化するための反復手続きがある。次の2つの手続きを…
5.8 より 5.9 (5.20)の形式にするためにはy,nともに1足して2で割ればよいので よって誤差関数は 出力ユニットのの活性化関数は2倍して1引けばよいので 。 5.10 とおく。このとき。 ・すべての固有値が正ならは正定値 すべての固有値が正なら>となりは正定値…
5.2.1 パラメータ最適化 課題 誤差関数を最小にする重みベクトルを見つける。 結論 方程式の解を見つければよい。 しかし、解析的な解を見つけるのはほぼ無理なため数値的な反復手段により解を見つける。 理由 誤差関数の勾配が0になる点が最小値になる(勾配…
5.1 演習問題3.1(3.100)を参照 5.2 5.3 に関する最尤推定解を見つけるための最小化すべき誤差関数 の最尤推定解 ※ $$ \frac{\partial \ln|X|}{\partial X}=(X^{^1})^{T},\,\frac{\partial a^{T}X^{-1}b}{\partial X}=-(X^{-1})^{T}ab^{T}(X^{-1})^{-T} $$ を…
5.2 ネットワーク訓練 ニューラルネットワークの出力を確率的に解釈すると、出力ユニットの非線形活性化関数の選択と誤差関数により明確な理由付けができるようになる。 それぞれの問題と、問題に対応する非線形活性化関数と誤差関数 問題 出力ユニットの活…
第五章 ニューラルネットワーク ・固定された基底関数の線形和で表されるモデルだと、次元の呪いのため実際的な応用可能性は限られる ・大規模な問題に適用するためには、基底関数をデータに適応させる必要がある 基底関数群を定義し、その一部を訓練中に選…
4.23 (4.138)より $$ A=-\nabla\nabla\ln p(D|\theta_{MAP})p(\theta_{MAP})=-\nabla\nabla(\ln p(D|\theta_{MAP})+p(\theta_{MAP}))=H-\nabla\nabla\ln p(\theta_{MAP}) $$ より $$ A=H+V_{0}^{-1} $$ 事前確率が広い幅を持っている(が大きい)、もしくはデ…
4.19 解答だとですね…。わからん。 4.20 解答見ながら。自分の理解しやすい形にしたけどあってんのか・・・? 4.21 4.22 として、(4.136)に(4.135)を適用して対数を取るだけ?Aについても(4.132)。
4.12 4.13 4.14 線形分離可能であれば、 のとき、それ以外では<。よってベクトルは決定境界を満足する。 (4.90)より負の対数尤度はすべてのに対してのとき最小化される。より最小化するには。よっては無限となる。 解答見ながら。わかるようなわからないよう…
4.8 ・(4.57),(4.58)を使って(4.65)の結果を導出せよ。 4.9 クラスの事前確率と一般的なクラス条件付の確率密度によって定義されるKクラス分類問題の生成モデルを考える。 学習データ{}が与えられたとする。データがこのモデルから独立に抽出されると仮定す…
4.3 わからん 4.4 クラス分離基準(4.22)をに関して最大化すればとなること示せ。 4.5 (4.20),(4.23),(4.24)を使って(4.25)が(4.26)の形で書けることを示せ。 4.6 (4.27),(4.28),(4.34),(4.36)および4.1.5節で述べた目的値を使って(4.33)が(4.37)の形で書ける…
4.1 データの集合との集合がある。凸包が重なる場合、2つのデータの集合は線形分離可能ではないことを示せ。 2つのデータの集合が線形分離可能な場合、それらの凸包が重ならないことを示せ。 4.2 (4.15)に対して線形制約 を満たすと仮定すると、 を満たすこ…
4.4 ラプラス近似 今後の議論(4.5節)について。モデルが複雑(事後確率分布がガウス分布でない)でパラメータベクトル上で正確に積分することができないため、何らかの近似を導入する必要が出てくる。ここではラプラス近似を紹介する。 ラプラス近似の目的:連…
4.3.4 多クラスロジスティック回帰 多クラスの分布に対して事後確率は特徴変数の線形関数のソフトマックス変換で与えられる。この節では最尤法を用いて直接パラメータを決定する。 パラメータベクトルに関する線形回帰モデルの対数尤度関数の微分は誤差と特…
4.3 確率的識別モデル 一般化線形モデルの関数形式を陽に仮定し、パラメータを直接決定する方法。 条件付確率密度分布を通じて定義される尤度関数を最大化する(識別学習の一形態)。 利点 決めるべき適応パラメータが少ない。 真の確率分布をうまく近似できな…