サンプルサイズ関係の本などを漁って斜め読みした話。

はじめに

データ分析などの仕事をしていると、
必ず一回はぶつかる「サンプルサイズをいくらにするか」問題。

ずっとモヤモヤしていたので、少し勉強した。
結論を言うと、スパッと答えを出している書籍はあるものの、いろいろ考え始めるとやっぱりモヤモヤは残る。
なぜなら、サンプルサイズは、何かしらのパラメータによって決定されるが、
そのパラメータをどうやって決定するかが、「慣習や、権威ある先生の文献(だいたい、Cohen)」によっているため。
ってことは、サンプルサイズも慣習や権威ある先生によって定まるってことだろ、と。

まあ、調べてみて、どういう構成になっているかは分かったので、興味ある方は続きもどうぞ。

参考文献の紹介

最初に参考文献を挙げる。以降では、この番号で呼ぶ。

サンプルサイズの決め方（永田）
心理学のためのサンプルサイズ設計入門（村井、橋本）
伝えるための心理統計（大久保、岡田）
統計検定２級公式問題集２０１１〜２０１３　　　←ちなみに、ちゃんと合格しました

サンプルサイズの求め方２つ

検出力（検定力）に基づく方法　→多くの場合、設定すべきパラメータは、有意水準、検出力、効果量
区間推定に基づく方法　　　　　→多くの場合、設定すべきパラメータは、母分散、信頼率、信頼区間の区間幅

「多くの場合」と書いたのは、そこまで必要なかったりもする場合もあるみたいなので。
書籍１は、検出力の話に多くのページを割いて、最後の章で区間推定の話をする構成。区間推定の話は、検出力の話全てをカバーできてない。あと、効果量という用語は出てこないが、Δがそれに相当すると思う。
書籍２は、２章で検出力、３章で区間推定、それ以降は具体例という構成。
書籍３は、検出力と区間推定どちらも言及されてはいるが、実践的ではない。上記パラメータの説明や研究者の苦悩などを見るのに参考になる。エモい。
書籍４の2013-16[2]、2012-5では、区間推定（母比率）の話。本当に簡単に求められるところだけ出題、という感じ。

実務的、実践的にはどうするか？

検出力でも、区間推定でもいいと思うが、なんらかのソフト（プログラム）を使うといいと思う。
検出力なら、Rパッケージの{pwr}がある。区間推定は、パッケージ化するまでもないのだろうか、私は知らない。
この辺りの実装部分（検出力も区間推定も）については、書籍２が詳しい。
ただ、ソフトに頼ったところで、設定すべきパラメータは、ユーザである我々が決めねばならない。
（とはいえ、具体例を示すため書籍２が結構スパッとやってる。あ、書籍１でもやってるわ。ま、一例ということなんだろう。）
検出力に基づく方法について言うと、

有意水準は、多くの場合、慣習で0.05
検出力は、多くの場合、慣習で0.8
効果量は、権威ある先生やその分野の慣習で、また、分析内容で、いろいろ。→書籍２の第２章を参照。

となっている。
例えば、
Rの{pwr}では、t検定（１群、２群で対応のある、２群で対応ないけどサンプルサイズ等しい、のどれでもこの記法。書籍２のp.34参照。）のサンプルサイズは、
以下のように、有意水準(sig.level=0.05)、検出力(power=0.8)、効果量(d=0.5)と入力し、そして、決めたいサンプルサイズnをNULLとして求める。

library(pwr)
pwr.t.test(sig.level=0.05, power=0.8, d=0.5, n=NULL)

このように、有意水準(sig.level=0.05)、検出力(power=0.8)、効果量(d=0.5)という感じで、具体的な値を決めねばならない。
この根拠が慣習だったり、権威ある先生だったりするのだ。個人的にここがモヤモヤするポイント。

というわけで、いろいろ話をしてきたけれど、世間一般では書籍１を推す風潮はあると思うが、
実務家としてサクッと決めたければ、
書籍２の第２章（、もしくは、第３章、できれば全部）を読みながら、Rで実装して算出。
かなと個人的には思う。
あと、いろいろ~~ウジウジ~~考えたければ、書籍３（の特に第５章）を読むといいかも。

折に触れ、悩むことになるだろうテーマなので、今後追記していくことになるかも。

（プログラミング、コンピュータサイエンス、機械学習、最適化問題、などはスパっとキマる印象だが、統計学はモヤモヤするんだよなぁ。）