サンプルサイズ関係の本などを漁って斜め読みした話。

はじめに

データ分析などの仕事をしていると、
必ず一回はぶつかる「サンプルサイズをいくらにするか」問題。

ずっとモヤモヤしていたので、少し勉強した。
結論を言うと、スパッと答えを出している書籍はあるものの、いろいろ考え始めるとやっぱりモヤモヤは残る。
なぜなら、サンプルサイズは、何かしらのパラメータによって決定されるが、
そのパラメータをどうやって決定するかが、「慣習や、権威ある先生の文献(だいたい、Cohen)」によっているため。
ってことは、サンプルサイズも慣習や権威ある先生によって定まるってことだろ、と。

まあ、調べてみて、どういう構成になっているかは分かったので、興味ある方は続きもどうぞ。

参考文献の紹介

最初に参考文献を挙げる。以降では、この番号で呼ぶ。

  1. サンプルサイズの決め方(永田)
  2. 心理学のためのサンプルサイズ設計入門(村井、橋本)
  3. 伝えるための心理統計(大久保、岡田)
  4. 統計検定2級公式問題集2011〜2013   ←ちなみに、ちゃんと合格しました

サンプルサイズの求め方2つ

  • 検出力(検定力)に基づく方法 →多くの場合、設定すべきパラメータは、有意水準、検出力、効果量
  • 区間推定に基づく方法     →多くの場合、設定すべきパラメータは、母分散、信頼率、信頼区間区間

「多くの場合」と書いたのは、そこまで必要なかったりもする場合もあるみたいなので。
書籍1は、検出力の話に多くのページを割いて、最後の章で区間推定の話をする構成。区間推定の話は、検出力の話全てをカバーできてない。あと、効果量という用語は出てこないが、Δがそれに相当すると思う。
書籍2は、2章で検出力、3章で区間推定、それ以降は具体例という構成。
書籍3は、検出力と区間推定どちらも言及されてはいるが、実践的ではない。上記パラメータの説明や研究者の苦悩などを見るのに参考になる。エモい。
書籍4の2013-16[2]、2012-5では、区間推定(母比率)の話。本当に簡単に求められるところだけ出題、という感じ。

実務的、実践的にはどうするか?

検出力でも、区間推定でもいいと思うが、なんらかのソフト(プログラム)を使うといいと思う。
検出力なら、Rパッケージの{pwr}がある。区間推定は、パッケージ化するまでもないのだろうか、私は知らない。
この辺りの実装部分(検出力も区間推定も)については、書籍2が詳しい。
ただ、ソフトに頼ったところで、設定すべきパラメータは、ユーザである我々が決めねばならない。
(とはいえ、具体例を示すため書籍2が結構スパッとやってる。あ、書籍1でもやってるわ。ま、一例ということなんだろう。)
検出力に基づく方法について言うと、

  • 有意水準は、多くの場合、慣習で0.05
  • 検出力は、多くの場合、慣習で0.8
  • 効果量は、権威ある先生やその分野の慣習で、また、分析内容で、いろいろ。→書籍2の第2章を参照。

となっている。
例えば、
Rの{pwr}では、t検定(1群、2群で対応のある、2群で対応ないけどサンプルサイズ等しい、のどれでもこの記法。書籍2のp.34参照。)のサンプルサイズは、
以下のように、有意水準(sig.level=0.05)、検出力(power=0.8)、効果量(d=0.5)と入力し、そして、決めたいサンプルサイズnをNULLとして求める。

library(pwr)
pwr.t.test(sig.level=0.05, power=0.8, d=0.5, n=NULL)

このように、有意水準(sig.level=0.05)、検出力(power=0.8)、効果量(d=0.5)という感じで、具体的な値を決めねばならない。
この根拠が慣習だったり、権威ある先生だったりするのだ。個人的にここがモヤモヤするポイント。

というわけで、いろいろ話をしてきたけれど、世間一般では書籍1を推す風潮はあると思うが、
実務家としてサクッと決めたければ、
書籍2の第2章(、もしくは、第3章、できれば全部)を読みながら、Rで実装して算出。
かなと個人的には思う。
あと、いろいろウジウジ考えたければ、書籍3(の特に第5章)を読むといいかも。

折に触れ、悩むことになるだろうテーマなので、今後追記していくことになるかも。

(プログラミング、コンピュータサイエンス機械学習最適化問題、などはスパっとキマる印象だが、統計学はモヤモヤするんだよなぁ。)