A way of thinking

筆者個人の思考過程です。意見には個人差があります。

回帰分析で使うステップワイズ法への批判

Whittingham et al. 2006. Why do we still use stepwise modelling in ecology and behaviour? Journal of Animal Ecology 75:1182-1189.

ステップワイズ法を批判した論文。というか,そこから色々幅広く言及している気がしますが。大部分は聞いたことある話でしたが,勉強になりました。自分のことは棚において*1,以下にメモ。
ステップワイズでベストモデルを選択するといった研究に,著者が指摘している点は3つ。

  • パラメータの推定にバイアスがかかる

ステップワイズでは,なんらかの基準(p値とかF値)で説明変数を選択する。結果は,その説明変数が選択されなかった(傾きは0とも言える)と選択されたの2つになって,著者の示した例(Fig.1(b))では,選択された場合に真の値より大きい側の推定値になっている*2
これに対して,その説明変数が目的変数に影響しているかどうかを調べるのであれば*3,説明変数全部入れモデルで議論する方が should be entirely justifiableとの記述もあり。

前進とか後進など使用したステップワイズのアルゴリズム,パラメータ出入力の順番, パラメータの数などによって,選択されるモデルが影響を受ける。

  • 単一のベストモデルに頼りすぎ

これはよく聞く話で,AIC最小やステップワイズ法で最終的に選択された(ベスト)モデルが,真のモデルではないという話に関連している(と思う)。著者らは,AICを使って重み付けして…という方法を進めている。モデル選択後のさらなる分析(予測に使うとか)は,単一のベストモデルを基にしてはいけなくて,ベストモデルと同様(同等)にデータと一致するモデル間での不確実性を認識しなければいけない。とのこと。

We suggest that use of stepwise multiple regression is bad practice.という文言が印象的。

*1:いや考慮はしているつもりです

*2:この話は,なるほどなぁと思いました。

*3:予測まで考えない場合

*4:ここちょっと理解できていない