以下,ほぼ個人的なメモですが。例えば,生死とかいわゆる2項分布に従いそうなデータって,生態毒性の分野(生態学も?)では,結構ゴリゴリ正規分布の世界で扱われていることが多いと思いますし,実際に,Ralf Schaferさんあたりが,キャッチーな論文を出していたりします*1。
Szöcs E, Schäfer R (2015) Ecotoxicology is not normal: A comparison of statistical approaches for analysis of count and proportion data in ecotoxicology. Environmental Science and Pollution Research, 22: 13990-13999
例えば,ミジンコを使って対照区と処理区で反復3回,各反復15個体で生存率を調べるという毒性試験をしたとしましょう(例を単純にするために,対照区と処理区しか考えていませんが,実際はこの多重比較を考えないといけません)。そういうデータの場合,いくつか実際に使われている方法はあると思いますが,おそらく代表的なものは
- 反復内で生存率(または死亡率)を計算し,独立2群の平均値の差の検定をする(例えば,t検定)。
- 反復内で生存率(または死亡率)を計算し,アークサインルート変換などのデータ変換をして,平均値の差の検定をする(t検定とかANOVAとか)。
- フィッシャーの正確確率検定やCochran-Armitage testなどの検定方法を使う
- これは,OECD(2006*2)では,Cochran-Armitage testという方法がおすすめされています。たぶん,GreenさんはCochran-Armitage推しだと思います(これ)。これ正直,どんな検定なんだろうと思っていましたが,Rのコードから理解するにフィッシャーの正確確率検定と類似な枠組みだと思われます*3。
- おそらくExcelでお手軽にとはいかないですが,この検定のいいところは,データを全部使えるところ。また多重比較の方法についても,OECD(2006)に書いてありますが,非常にシンプルです。
- 次に説明するGLMとの違いは,反復をひとまとめとして解析してしまうところが,不自然という感じ。反復間でのばらつきが多かった場合などは,ちょっと要検討な気がします(要確認:プールすれば別によいとなるのか?)。2項分布のGLMとの違いという意味では,2値だけでなく,より区分の多いカテゴリカルなデータの頻度でも適用可能なところでしょうか(定性的なスコアに分けたりするとか)。
- 2項分布の一般化線形モデル(GLM)を使う
- 詳しい説明は省きますが,データを全部使えます。でも,Excelでお手軽にという感じではないです。Rを使えれば,非常にお手軽です。
- 過分散の場合に,GLMMや過分散用の分布を使わないと行けないという操作が出てくるのもちょっと面倒なところです。
とりあえず,こんな感じでしょうか。普通の生存率などの二値データはGLMの枠組みが良さそうな気がするのですが,検出力などを比較してみたいところです。