ちょっと地道な整理(地点の紐づけや位置情報の確認)に時間がかかってしまいましたが、やっと、日本全国の河川の水質測定地点(環境基準点2925箇所)を対象に、物理化学的特徴を整備した論文がまとまりました。やったことはシンプルで、物理化学的特徴としては、集水域面積や標高,、集水域及び3 km周囲の土地利用割合、pH(最小値)、生物化学的酸素要求量、浮遊物質量、全リン、全窒素を整備しました。その後そのデータを使って、クラスター分析でひとまず4つのグループに分けてみたという感じです。詳しくは要旨や本文を御覧ください。「任意の化学物質の濃度が高い地点があったときに、それってどんなところ?」に答えられるデータベースのようなものを作りたいというモチベで始めましたが、きちんと成果になってよかったです。特に、小林さんにGIS解析全般を引き受けて頂き、ボクはとても助かりました(ありがとうございました)。本題とはずれますが、こっそりランダムフォレストによる欠損値の補完とかも使っています*1。
整備したデータは、GitHubから落手可能です(ここ)。是非ご活用ください。