A way of thinking

筆者個人の思考過程です。意見には個人差があります。

負の二項分布か?疑似ポアソンか?

ポアソン分布のGLMで過分散になった場合に,いくつか大体の分布を使うというのが1つの方法だと思います*1。そんなときに,代表的に使われるのが,負の二項分布,疑似ポアソン*2。どっちがええん?という問題があるのですが,答えは,「There is no general answer」とのこと。個人的に疑似ポアソンはちょっと敬遠していたのですが*3,この論文の例題では,疑似ポアソンの方がええ。ということのようです。数式をちゃんと追えないのがボクの問題なのですが,ボクの理解ではこれら2つでは分散の項の入れ方が違うこと,データのウェイトのかけ方が違うようです(後者はよくわかってない)。この違い,特に後者の違いによって,この論文に出ている例では,疑似ポアソンの方が良さそうとなったようです。うーん。
個人的には,例えば,カウントデータだから離散のポアソン分布で・・・とか言いますが,結局分布は数学的に作られたものであって,それでうまく現象をとらえられるとは限らないという例な気もします。

Hoef, J.M.V., Boveng, P.L., 2007. Quasi-poisson vs. negative binomial regression: How should we model overdispersed count data? Ecology 88, 2766-2772.

*1:データの構造上,GLMMを使うという方が望ましいということもあると思います

*2:なにやら,色々注釈をつけてしましたが,zero-inflatedな分布を使うというのもあると思います

*3:AICが計算できない:ただし,QAICは計算できる