A way of thinking

筆者個人の思考過程です。意見には個人差があります。

共線性の問題。

Quinn and Keough (2002)では,重回帰における多重共線性の問題について。

  1. 冗長な説明変数を削る
  2. リッジ回帰を使う
  3. 主成分回帰を使う

の三つをあげた上で,1の方法で回避できない場合は,比較的容易な方法かつPCAは共線性を調べるのに便利という2つの理由から,主成分回帰を好むとしている。

Experimntl Design Data Anl Biol 1ed

Experimntl Design Data Anl Biol 1ed

あまり根拠がないのですが,なんとなく感覚(経験?)的には,

  • 沢山ある説明変数がほとんど入る*1

なんてときは,共線性を疑いたくなります。野外データとか,とりあえず可能性のある変数を入れるみたいな状況の場合は,共線性の問題はなんとなく気になってしまう*2
他方,主成分回帰だと,

  • 出てきた主成分の意味を解釈して利用することは可能だけど,厳密には主成分得点は本来の値とは変わっているので,本当にそれを意味しているかは実は難しい(と思う)
  • あるいは,主成分分析をすると1つの主成分にまとまってしまう2つの変数が実はそれぞれ独立に働いて,それらが相関してしまっているために,同じ主成分になってしまっている場合とかはもうお手上げな気がする*3

(なお,あくまで私的な感覚です。ご批判,御意見歓迎です。)


(追記)110901
とか書いたら,林先生からキラーパスが(たぶん)。
(追記)110904
小島さんの本の該当部分を読んでみました(3章と4章)。確かに,ボクが思っていたマルチコは(説明変数の偏回帰係数が直感と逆になる),マルチコモドキと呼んでおられます。

本来のマルチコ:ある1つのモデルにおける,推定精度の低下(偏回帰係数の標準誤差の増大)
マルチコモドキ:モデルによって偏回帰係数の値が変わる

ただ,マルチコモドキとマルチコの区別にどれくらい御利益があるのかはよくわからないのです*4(より実務的には,マルチコモドキを気にする場合は,論文でなんと書いたらいいのかもよく分かりません)。いずれも,説明変数間の高い相関が原因。小島さんの本では,マルチコモドキの対策としてパス解析を行い,すごく華麗にその問題を解決してみせています。その例*5は説明変数も少なくシンプルで因果モデルを立てやすいのですが,説明変数が沢山あったりその関係性がよくわからなかったりすると,とりあえずお手上げな感じもします。でも,例も含めて,なかなか魅力的な解析方法だなと思いました。とりあえず,折を見て続きを読んでみようと思います。例えば,「マルチコモドキがあるときの偏回帰係数を解釈しよう」という提案(p87)は新鮮でおおっと思いました。
で,林先生が続きを書かれています。ここ


(追記)2013/04/09
マルチコモドキなのか,マルチコなのかわかりませんが,説明変数間の相関が無視できなさそうで,複数の説明変数の相対的な重要度を知りたいのであれば,hierarchical partitioning を使うのもありかもしれません。

*1:GLMだと過分散を疑うのもあり

*2:実際,多重共線性が起きているかを判断するのは(おそらく)難しい問題。いま扱っているデータがまさにそんな感じで。。

*3:おそらく個別の微妙な効果の違いみたいなのは反映できなくなるんじゃないかと思う。

*4:マルチコの方は,「標本サイズが十分ならば少々高相関の説明変数があっても偏回帰係数の標準誤差は小さくなるので,偏回帰係数が実感に合わないのを統計的なばらつきのせいにすることはできない場合が多いはずなのです」とある。

*5:小型カメラの評価