2値データの統計解析（Ecotoxまわり）

以下，ほぼ個人的なメモですが。例えば，生死とかいわゆる2項分布に従いそうなデータって，生態毒性の分野（生態学も？）では，結構ゴリゴリ正規分布の世界で扱われていることが多いと思いますし，実際に，Ralf Schaferさんあたりが，キャッチーな論文を出していたりします*1。

Szöcs E, Schäfer R (2015) Ecotoxicology is not normal: A comparison of statistical approaches for analysis of count and proportion data in ecotoxicology. Environmental Science and Pollution Research, 22: 13990-13999

例えば，ミジンコを使って対照区と処理区で反復3回，各反復15個体で生存率を調べるという毒性試験をしたとしましょう（例を単純にするために，対照区と処理区しか考えていませんが，実際はこの多重比較を考えないといけません）。そういうデータの場合，いくつか実際に使われている方法はあると思いますが，おそらく代表的なものは

反復内で生存率（または死亡率）を計算し，独立2群の平均値の差の検定をする（例えば，t検定）。
- ちょっとこれはと思われる方もいるかもしれませんが，こういう解析ってExcelでもできるので結構はびこっていると思います（実際に論文とする場合は分かりませんが，研究発表レベルだと…）。実際は，処理区が複数あると思うので，多重比較をする必要があり，方法はダネットとか色々あると思います。
- 利点としてはExcelでもできる。欠点としては，実際に実験に使用した数の情報がまったくなくなってしまう，とか，そもそものデータが持っている分布が失われてしまう，なんかが挙げられると思います。
反復内で生存率（または死亡率）を計算し，アークサインルート変換などのデータ変換をして，平均値の差の検定をする（t検定とかANOVAとか）。
- アークサイン変換とかは，上の論文を読む限り，EPAでも推奨されているようです(生存率が0や1のときは(arcsin(sqrt(1/4n)))を足したり引いたりするようです。)。同様に，実際は，処理区が複数あると思うので，多重比較をする必要があり，方法はダネットとか色々あると思います。
- 利点としては，変数変換の手間があるけど，Excelでもできる。欠点としては，1と同様に，実際に実験に使用した数の情報がまったくなくなってしまう，とか，そもそものデータが持っている分布が失われてしまう，なんかが挙げられると思います。
フィッシャーの正確確率検定やCochran-Armitage testなどの検定方法を使う
- これは，OECD（2006*2）では，Cochran-Armitage testという方法がおすすめされています。たぶん，GreenさんはCochran-Armitage推しだと思います（これ）。これ正直，どんな検定なんだろうと思っていましたが，Rのコードから理解するにフィッシャーの正確確率検定と類似な枠組みだと思われます*3。
- おそらくExcelでお手軽にとはいかないですが，この検定のいいところは，データを全部使えるところ。また多重比較の方法についても，OECD(2006)に書いてありますが，非常にシンプルです。
- 次に説明するGLMとの違いは，反復をひとまとめとして解析してしまうところが，不自然という感じ。反復間でのばらつきが多かった場合などは，ちょっと要検討な気がします（要確認：プールすれば別によいとなるのか？）。2項分布のGLMとの違いという意味では，2値だけでなく，より区分の多いカテゴリカルなデータの頻度でも適用可能なところでしょうか（定性的なスコアに分けたりするとか）。
2項分布の一般化線形モデル（GLM）を使う
- 詳しい説明は省きますが，データを全部使えます。でも，Excelでお手軽にという感じではないです。Rを使えれば，非常にお手軽です。
- 過分散の場合に，GLMMや過分散用の分布を使わないと行けないという操作が出てくるのもちょっと面倒なところです。

とりあえず，こんな感じでしょうか。普通の生存率などの二値データはGLMの枠組みが良さそうな気がするのですが，検出力などを比較してみたいところです。

*1:ただ，こういうことって生命科学の実験系の方でも結構そうじゃないかなぁと思っていたりします：実際は，未確認

*2:OECD (2006) Current approaches in the statistical analysis of ecotoxicity data: a guidance to application OECD series on testing and assessment. Organisation for Economic Co-operation and Development, Paris, France, pp. 147

*3:中身は未確認

A way of thinking

筆者個人の思考過程です。意見には個人差があります。

2値データの統計解析（Ecotoxまわり）