A way of thinking

筆者個人の思考過程です。意見には個人差があります。

不偏分散のルートから計算する標準偏差は不偏ではない

もうタイトルの通りなんだけど,結構衝撃だったのでメモっておく。化学物質の生態リスクの分野では,個々の生物種の毒性値を対数正規分布などの分布(種の感受性分布と呼ばれる。略してSSD。)にフィッティングさせて,X%が影響を受ける割合とかって計算する(95%の種が保護できる濃度が環境基準などの設定根拠になったりする)。色々あるけど,対数正規分布が一番メジャー*1でお手軽。この対数正規分布も単純で,対数をとった毒性値の平均と分散(あるいは標準偏差)が分かればよい。平均も標準偏差も統計では基本中の基本なので,なんてことはないと思っていたのですが,標準偏差が曲者だった。標準偏差の計算方法はいくつかあって

  • 標本分散(nで割るやつ)のルートをとって計算する方法(不偏ではない)
    • 最尤法で計算するとこの方法になるとのこと。例えば,こことか。
    • この方法でSSDを計算するのが,Rのパッケージssdtools。ただ,作者にこの点問い合わせたので,のちのち修正されるかも。ちなみにssdtools自体は,この計算を別のパッケージの関数に外注している。
  • 不偏分散(n-1で割るやつ)のルートとって計算する方法
    • 実はこれで計算された標準偏差も不偏ではなく,平均的に過小推定される。例えば,こことかこことか(リンク先はあくまで参考でここがいいっていっているわけではないです)。
    • 上のリンクにもあるように正規分布であれば,補正する式がある。
    • 余談ですが,SSD本の中で,Aldenbergは不偏でないことは認識しつつも,最尤推定による標準偏差(標本分散のルート)よりは後者の標準偏差の方がpreferされると書いていて,このあたりの思考回路が気になるところ。
  • (最後に)不偏分散のルートをとって補正して計算する方法

がある。という感じ。

おそらく,SSDを描いている人で私も含めて,このあたりを気づいて補正した標準偏差を使っている人はいないんじゃないでしょうか。SSD標準偏差はHC5の推定にも響いてくるし,まぁ実質的な誤差はそんなに大きくないとしても,SSDの文脈ではあまりないがしろにしてはいけない気がする。おそらく,落としどころは,補正無しの標準偏差で進めましょうということだと思うけど(Aldenbergさんにも問い合わせてもらっているけど),標準偏差1つとってもなかなか深いことを実感した*2

*1:この理解でいいと思うんだけど,細かいつっこみを入れる人はいるかも

*2:標準偏差なんて標準誤差のもとだし,もうみんな標本標準偏差しか使ってないっすよ,と思うと,正直ちょっとどうしたらいいのか愕然とした