trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

PRMLメモ 2章 2.5~2.5.2

2.5ノンパラメトリック

パラメトリックなアプローチ:データ集合から値が決定される少数のパラメータで関数形が決まるような確率密度を利用

制限:データを生成した分布に適さない密度関数を選ぶと予測性能が悪くなる(例:多峰性の分布に単峰性のガウス分布を使う)

ノンパラメトリックなアプローチ:分布の形状についてわずかな仮定

制限:データ集合が大きいと膨大な計算量が必要になる。(カーネル密度推定法、K近傍法の場合)

 

ヒストグラム密度推定法

(2.241)正規化:\sum_ip_i\Delta_i=1

区間の幅\deltaが小さすぎる場合:ノイズを拾う

区間の幅\deltaが大きすぎる場合:なだらかになりすぎて特徴を失う

メリット:元のデータ集合を保存する必要がない、逐次的に使うのが容易、1,2次元の簡便な可視化に役立つ

デメリット:ほとんどの密度推定の応用問題には適さない、推定した密度が区間の縁で不連続になる、次元数の増加に伴い計算規模が増大する

 

2.5.1カーネル密度推定法

観測データN個。領域RにK個のデータが入る→(2.243)

E[ax]=aE[x],\,Var[ax]=a^2Var[x]

・Kを固定してデータからVの値を推定する→K近傍法

・Vを固定してデータからKを推定する→カーネル近傍法

VがNに応じて縮小し、KがNに応じて大きくなる→N→\inftyで真の確率密度に収束する

(2.247):原点を中心とする単位立方体内は1、外は0

k((x-x_n)/h):x_nがxを中心とする一辺hの立方体内にあれば1、なければ0.(逆に、xがx_nを中心とする立方体内にあれば1とも解釈できる)

問題点:立方体の縁で人為的な不連続が生じる。→滑らかなカーネル関数(例:ガウスカーネル)を選べば緩和される。

 

2.5.2最近傍法

カーネルアプローチの欠点:データの密度で高い領域でも低い領域でも同じ幅を使うため、大きすぎると高い領域が平滑化されすぎ小さすぎると低い領域でノイズを拾う。

→最近傍法による密度推定:データ空間内の位置に応じてhを変える。(パラメータ(K)が大きすぎても小さすぎても平滑化されすぎたりノイズを拾うのは同じ。また正規化れた密度モデルにはなってない)

・K近傍法はクラス分類問題にも拡張できる。K近傍の点集合の中で最も多数派のクラスに割り当てる。K=1の場合最近傍則と呼ばれる。