A way of thinking

筆者個人の思考過程です。意見には個人差があります。

生態毒性試験の統計解析

生態毒性試験結果を解析する機会があり,大分まどわされたので,個人的メモとして(統計用語は正しくないかもしれません。また,私個人の解釈で,かつ直感的に記述しておりますので,不適切な部分がある可能性があります。ご使用は自己責任でお願いします)。
生存率の解析(生存or死亡)
正規分布な解析】
Kerr and Meador(1996)にあるように,伝統的にはlogit変換やprobit変換というものを使って,正規分布を誤差としたモデルで解析するようです*1。これにはいくつか欠点があって,例えば,

    • 誤差が等分散の正規分布になるという仮定がいまいち。これはフィットしたモデルから疑似データを生成して解析をしようとする場合に(パラメトリックブートストラップ),いけてなさが露骨に出てくる。
    • 生死のデータを割合にして計算するため,サンプルサイズを考慮できない。100匹で試験して10個体死ぬのも,10匹で1個体死ぬのも同じ死亡率10%のデータとして扱われる。

なんてことが言われています(Kerr and Meador 1996)。また,control(濃度が0のところ)の死亡率は0になるので,それを考慮しないシンプルなモデルならば,コントロール区を除外するように書かれています(OECD 2006)(補足20130118:コントール区を削除するように進めている理由は,OECDの文章の中のモデルだと切片のパラメータが入ってないせいだと思います。これは(1)コントロール区は死亡率0であるべき(という制約),(2)LC50を推定するときに,コントロール区に死亡率があるとちょっとめんどくさくなりそう,というのが理由な気がします。)。

【GLMな解析】
そういう問題があるので,サンプルサイズを利用できたり,もっと自然なモデリングできるGLMが提案されています*2。これは,まぁ単純に言えば,二項分布GLMようなものを使いましょうということです。過分散についても,つい最近,Noble et al. (2009)で議論されています。この方法については,上記論文でも良いですし,GLMとかでgoogle検索すれば,色々出てくると思います。
個人的には,GLMのリンク関数のlogitとprobitが,上記の正規分布な解析のところのlogit,probitとごっちゃになったので,要注意。

## 追記 101031
手前味噌ですが,生存率の解析は,この論文付録にRのコードがあります。よろしければお使い下さい。

生存率はルート4で,成長のデータはルート2でデータ変換をして,正規分布な解析をしている博士論文(カナダ)を見つけました。等分散性を保つために,ベストな変換を決めたようですが,もう何が何かわからんです。ルート4とか(著者に一応提案してみるつもり)。

*1:他にもありようですが,ここでは端折ります。詳しくは,例えばこちらの資料

*2:Kerr and Meador(1996)で提案されてはいるのですが,まだそんなに引用が多くないのが気になります