A way of thinking

筆者個人の思考過程です。意見には個人差があります。

生態学会誌の冊子をとってなかったので,やっと眺められた特集。ここ

箱山 洋 (2015) 趣旨説明(<特集2>生態学におけるモデル選択). 日本生態学会誌, 65: 155-156

ボクの理解が足りないだけかもしれませんが,誤解を恐れず,粕谷さんの記事について個人的なコメントを残しておきたいと思います。そもそも大事なことが書いてありそうな箱山さんの記事はボクには難しすぎて(たぶんほとんど)理解できていないので,勘違いとか間違いがありましたら,是非教えて下さい(お願いいたします)。

粕谷英一 (2015) 生態学におけるAICの誤用 : AICは正しいモデルを選ぶためのものではないので正しいモデルを選ばない(<特集2>生態学におけるモデル選択). 日本生態学会誌, 65: 179-185

  • AICは真の(あるいは正しい)モデルを選ばない,というよりは,AICは真の(あるいは正しい)モデルを必ずしも選ばないという方が正確だと思う。
    • これは粕谷さんの記事自体からもこう言えると思います。あと,このあたりは,ここで書いたことにも近いです。
  • AICは真のモデルを必ずしも選ばなくても,ベストモデルに真のモデルに含まれている変数が選ばれることはある*1
    • 例えば,GLMで表現できるようなモデルが正しいモデルだとして,説明変数Aが応答変数Yに「強い」影響を及ぼしている場合,AICによるモデル選択でも説明変数Aが「重要」と示唆できる可能性は高いと思う。逆に,非常に微妙な(でも真に)効果を持った説明変数Bとかは,結構危ういことになるとは思う。
  • そもそも真のモデルというものが存在する,という前提自体を信じるか信じないか,という議論がある*2
    • 同特集の岸野さんの記事にある「AIC創生の背後には、厳密な意味での真の分布は永遠に知りえない、という数多くの経験に基づく実感がある。」という記述は興味深いです。そもそも,岸野さんの記事はAICは正面から使っている。
  • (おそらく)BICとかとの比較でいうと,(真のモデルが存在していたとしても)そもそも真のモデルに近いモデルを作れているか?という問題もある。
    • 例えば,生態学の事例において,単なる線型モデルの集合から真のモデルを選ぼうというのは多くの場合明らかに無理があるように思います。したがって,GLMを使っていてAICは一致性がないから,とりあえずBICなんて短絡的な変更も全然本質的ではないと思う。
  • 因果の問題*3

いずれにしても,訳も分からず,とりあえずAICでモデル選択してベストモデルで,という短絡的な流れに警鐘を鳴らすというのは,意味があると思います。また,ベイズとかより複雑なモデリングが明らかに適切であるという場合もあるというのも理解はしているつもりです*4。個人的には,箱山さんの締めの記事あるLinhart-Zucchini Criterion(LZC)あたりの展開も気になります。

*1:どれくらいの頻度とかはわからないのでとりあえず「ある」とだけしておきます

*2:David Andersonさんは信じない派

*3:とりあえず,書いておきます

*4:ただ,まだまだハードルが高いのも事実だと思います