A way of thinking

筆者個人の思考過程です。意見には個人差があります。

AICの誤用

AICは、正しいモデルを選ぶものではないので、正しいモデルを選ばない

とは,生態学会での粕谷さんの発表にあった言葉です(スライドはこちら)。はてさて,ボクも”誤解”していた1人です。まぁ,結果的に「間違ったことになっているか」はケースバイケースなのでしょうが。。確かに,久保さんの本にAICは「予測の良さを基準とした規準」とあるのですが,おそらくここまで深くとらえていた人は少なくともユーザー側には少ないんじゃないでしょうが。

と思ったりしていたら,Ecologyにp値の特集が組まれていて,その中の以下の論文がとても勉強になりました

Aho, K., Derryberry, D. & Peterson, T. (2014) Model selection for ecologists: the worldviews of AIC and BIC. Ecology, 95, 631-636.

要は,粕谷さんのお話されていた内容+BICもいれて,それぞれの哲学?目的?からいって,どういう場合にどっちが良さそうかという話を書いておられます。予測性(AIC)か,一致性(consistency:BIC)か。正確な予測か(AIC),真のモデルの探索か(BIC)。正しい関数型と変数を選べていると思うか(Yes: BIC, No:AIC)。複数の特定できない(あるいは無限の)パラメータモデルが相手か(AIC),それとも比較的少ない特定されたモデルや仮説が相手か?(BIC)。などなど。自分のデータを考えると,真のモデルは知りたいけど,性質的にはAICの使用よりかなぁという曖昧な感じになってしまいますが,まぁでもこのあたり理解できた(と思っただけかもですが)のは,良かったです。この論文お薦め*1

追記20141224
ふと思ったのですが,「AIC(のベストモデルなど)で選ばれたモデルに真のモデルに含まれる変数が含まれるとは限らない」という表現の方がより正確?結局,定性的な重要な変数を抜き出そうとするときに,「明らかに影響が大きい変数はAICでベストなモデル等に入ってくるので,それに関する定性的な解釈は間違うことはなさそうですが,真のモデルには含まれない関係のない変数も含んでしまう(ことが多い?)という意味でその変数についての解釈は間違う可能性が高く,そういう意味でモデル全体でいうとAICは正しいモデルは選ばないということなる」ということではないかなぁと今日言葉がふっと降りてきました*2

*1:とかいいながら,これらの解釈の別解釈もあったりするのかもしれませんが。。

*2:遅い