生態毒性試験の統計解析

生態毒性試験結果を解析する機会があり，大分まどわされたので，個人的メモとして（統計用語は正しくないかもしれません。また，私個人の解釈で，かつ直感的に記述しておりますので，不適切な部分がある可能性があります。ご使用は自己責任でお願いします）。
生存率の解析（生存or死亡）
【正規分布な解析】
Kerr and Meador（1996）にあるように，伝統的にはlogit変換やprobit変換というものを使って，正規分布を誤差としたモデルで解析するようです*1。これにはいくつか欠点があって，例えば，

- 誤差が等分散の正規分布になるという仮定がいまいち。これはフィットしたモデルから疑似データを生成して解析をしようとする場合に（パラメトリックブートストラップ），いけてなさが露骨に出てくる。
- 生死のデータを割合にして計算するため，サンプルサイズを考慮できない。100匹で試験して10個体死ぬのも，10匹で1個体死ぬのも同じ死亡率10%のデータとして扱われる。

なんてことが言われています（Kerr and Meador 1996）。また，control（濃度が0のところ）の死亡率は0になるので，それを考慮しないシンプルなモデルならば，コントロール区を除外するように書かれています（OECD 2006）（補足20130118：コントール区を削除するように進めている理由は，OECDの文章の中のモデルだと切片のパラメータが入ってないせいだと思います。これは(1)コントロール区は死亡率0であるべき（という制約），(2)LC50を推定するときに，コントロール区に死亡率があるとちょっとめんどくさくなりそう，というのが理由な気がします。）。

【GLMな解析】
そういう問題があるので，サンプルサイズを利用できたり，もっと自然なモデリングできるGLMが提案されています*2。これは，まぁ単純に言えば，二項分布GLMようなものを使いましょうということです。過分散についても，つい最近，Noble et al. (2009)で議論されています。この方法については，上記論文でも良いですし，GLMとかでgoogle検索すれば，色々出てくると思います。
個人的には，GLMのリンク関数のlogitとprobitが，上記の正規分布な解析のところのlogit，probitとごっちゃになったので，要注意。

## 追記 101031
手前味噌ですが，生存率の解析は，この論文の付録にRのコードがあります。よろしければお使い下さい。

生存率はルート4で，成長のデータはルート2でデータ変換をして，正規分布な解析をしている博士論文（カナダ）を見つけました。等分散性を保つために，ベストな変換を決めたようですが，もう何が何かわからんです。ルート4とか（著者に一応提案してみるつもり）。

*1:他にもありようですが，ここでは端折ります。詳しくは，例えばこちらの資料

*2:Kerr and Meador（1996）で提案されてはいるのですが，まだそんなに引用が多くないのが気になります

A way of thinking

筆者個人の思考過程です。意見には個人差があります。

生態毒性試験の統計解析