A way of thinking

筆者個人の思考過程です。意見には個人差があります。

Strobl, C., Boulesteix, A.-L., Zeileis, A., Hothorn, T., 2007. Bias in random forest variable importance measures: Illustrations, sources and a solution. BMC Bioinformatics 8, 25.

Rを使ってランダムフォレスト(RF)で説明変数の重要度を評価する場合には,randomForestではなくてcforestで,ubiasedの設定を使った方がよいとお話*1。まだRFをきちんと詳細を理解できていないので,あまり自信はないのですが,この論文としてはそういう主張。library(party)のcforestはデフォルトでこの論文の仕様になっているようです。とりあえずのメモとして。間違ってたら教えて下さい*2

*1:きちんと読めてないのですが,連続変数だけとか同じカテゴリー数の説明変数?だけであれば,気にすることはないよう

*2:ざっとしか眺めてないので論文読み直します。。