Waite, I.R., Kennen, J.G., May, J.T., Brown, L.R., Cuffney, T.F., Jones, K.A., Orlando, J.L., 2014. Stream macroinvertebrate response models for bioassessment metrics: addressing the Issue of spatial scale. PLoS ONE 9, 21.
Waite, I.R., Munn, M.D., Moran, P.W., Konrad, C.P., Nowell, L.H., Meador, M.R., Van Metre, P.C., Carlisle, D.M., 2019. Effects of urban multi-stressors on three stream biotic assemblages. Science of the Total Environment 660, 1472-1485.
とあるPJでもこういう話が出ているのですが,おそらくそれとは独立に(多分)リサーチゲート*1が推奨してきた論文。Waiteさんは,Boosted regression treesを使って,水生昆虫を中心とした河川水生生物の物理化学的な要因に対する応答を調べた研究を結構な数出している。そのうち,適当に選んだのが上の2本。いずれもざっと読みで,Boosted regression treesの詳細についてはボクは説明できないので,回帰木などのキーワードともにググれば,内容がわかりそうなサイトが見つかると思います*2。すごく適当にいうと,ランダムフォレストのお友達みたいなイメージ。
2本読んで思ったのはほんとに素人な疑問をメモしておく(ほんとにイメージなので誤解している可能性大です):
- こういうモデル解析した際に,オリジナルの濃度影響関係がきちんと推定できるのか?という点。
- 疑似データなんかでやってみればいいのかもしれませんが*3,都市河川とか他の要因が存在(ある程度相関して存在)する中では,単一の要因の影響をpartial dependency plot(PDF)で見ることは,総じて影響の”傾き”がゆるく見積もられないか?というのが気になった。結局,影響を説明変数間で分け合うってるんじゃないかなとも思ったけど,説明変数を絞っている上の論文では,そういうことは起きてないのだろうか。中身もよくしらんので,全然自信が無いのですが,これらの論文に出てくるPDPsを見てて大体大きな変化がないので,素直にこう思った次第。仮に,単一の要因のみをきちんとコントロールできた際に,見えてくる影響をPDPでは捉えられているのだろうか。
- 結論としてその程度の定性的な結果なら”知ってます”という感じがする。
繰り返しますが,完全に個人的メモです。