trsing’s diary

勉強、読んだ本、仕事で調べたこととかのメモ。

サンプルサイズの算出を理解するのに必要な項目

項目はだいたい合っていると思う。

正規分布

言わずもがな。

平均0、分散1の正規分布N(0,1)を標準正規分布という。

標準化

正規分布N(\mu,\sigma^{2})に対して標準化変数Z=(X-\mu)/\sigmaで変換すると標準正規分布に従う。

標本平均の分布

母集団の平均を\mu, 分散を\sigma^{2}とする。

標本平均の期待値:E(\bar{X})=\mu
標本平均の分散:V(\bar{X})=\sigma^{2}/n

区間推定

真の母数の値\thetaが、ある区間(L,U)に入る確率を1-\alpha以上になるように保証する方法であり、
P(L\leq \theta \leq U)\geq 1-\alpha
となる確率変数L,Uを求めるものである。

基礎統計学I 統計学入門 から

正規母集団の母平均の区間推定

標準正規分布N(0,1)の信頼係数1-\alphaの信頼区間


P(-Z_{\alpha/2} \leq X \leq Z_{\alpha/2})

正規分布N(\mu,\sigma^{2}/n)に従う標本平均\bar{X}を標準化してやると


P(-Z_{\alpha/2} \leq X-\mu/(\sigma/\sqrt{n}) \leq Z_{\alpha/2})

\muについて解くと


P(\bar{X}-Z_{\alpha/2} \sigma/\sqrt{n} \leq \mu \leq \bar{X}+Z_{\alpha/2} \sigma/\sqrt{n})

Z_{\alpha/2}:標準正規分布で上側確率が\alpha/2となる点。\alpha=0.05の場合1.96。

サンプルサイズを求める

許容できる誤差をYと置くと、 
Z_{\alpha/2} \sigma/\sqrt{n} \leq Y
となるnを求める。


n \geq \left( \frac{Z_{\alpha/2} }{Y} \right)^{2} \sigma^{2}

有限母集団修正

母集団が有限で非復元抽出の場合分散に補正 \frac{N-n}{N-1} がかかる。


V(\bar{X})=\frac{N-n}{N-1}\frac{\sigma^{2}}{n}

となるので、


Z_{\alpha/2} \sqrt{\frac{N-n}{N-1}\frac{\sigma^{2}}{n}} \leq Y

これをとくと


n=\frac{N}{\left(\frac{Y}{Z_{\alpha/2}}\right)^{2} \frac{N-1}{\sigma^{2}} + 1 }

n \ll N の場合だいたい1になるので気にしないで良い。

二項分布の場合

二項分布に従う場合、分散はp(1-p)なので(二項分布の分散はnp(1-p)。平均の分散なので\sigma^{2}/n=p(1-p)

  • 成功確率p (失敗確率(1-p))のベルヌーイ試行を独立にn回行ったとき、x回成功する確率はf(x)= _{n}C_{x}p^{x}(1-p)^{n-x}。この確率分布を二項分布(Bi(n,p))という。
  • XBi(n,p)に従っているなら、E(X)=np, V(X)=np(1-p)
  • 中心極限定理により正規分布に近似できるので


P \left( -Z_{\alpha/2}\leq\sum(X_{i}-p)/\sqrt{np(1-p)}\leq Z_{\alpha/2} \right)

\hat{p}=\bar{X}=\sum X_{i}/n として、pについてとくと


P \left( \hat{p}-Z_{\alpha/2} \sqrt{p(1-p)/n} \leq p \leq \hat{p}+Z_{\alpha/2} \sqrt{p(1-p)/n} \right)

対数の法則により\hat{p}pにほとんど等しいと考えられるので、


P \left( \hat{p}-Z_{\alpha/2} \sqrt{ \hat{p}(1-\hat{p})/n} \leq p \leq \hat{p}+Z_{\alpha/2} \sqrt{\hat{p}(1-\hat{p})/n} \right)

これよりサンプルサイズn

n \geq \left(\frac{Z_{\alpha/2}}{Y}\right)^{2} p(1-p)

p=0.5で分散が最大になるので母比率(p)が未知でも必要なサンプルサイズがわかる。

支持する/しないなどAとNot Aに分けれるやつが該当。

サンプルサイズを求めるには

  • 母集団の分散を調べる
    標本から母分散を推定したりする。二項分布の場合はp=0.5としておけば過剰かもしれないが必要なサイズは出る。
  • 信頼区間を決める
  • 許容できる誤差を決める
  • 式に投げ込む

参考

サンプルサイズなどでググって出てくるサイトは大体みた。特にお世話になったのは

toukeigaku-jouhou.info

http://www.naro.affrc.go.jp/org/nfri/yakudachi/sampling/pdf/logical-sample-number.pdf

bellcurve.jp

統計学入門 (基礎統計学Ⅰ)

統計学入門 (基礎統計学Ⅰ)

  • 発売日: 1991/07/09
  • メディア: 単行本