tsujimotterのノートブック

日曜数学者 tsujimotter の「趣味で数学」実践ノート

統計的決定理論~平均値・中央値・最頻値って何?~

「統計的決定理論」とは何か?はじめてこの名前を聞いた方も多いかと思います。まずはざっくりと統計的決定理論について説明してみましょう。

統計的決定理論とは、
「うーん、あっちが良いかもしれないなあ。いや、こっちかなあ。」
と決めかねているときに、
「男ならウダウダ軟弱なこと言ってないで一点に決めてみろ。」
と背中を押してくれる理論のことです。

単に背中を押すだけでなく、1つの答えを決定するための指針と方法を与えてくれます。男前な理論ですね。

とはいえ、この説明ではいったい何のことだか、よくわからないですよね(笑)

以下では、真面目に統計的決定理論について説明てみたいと思います。ちょっと長いですが、お付き合い頂けるとうれしいです。

1. 統計的決定とは

ある確率分布にしたがう確率変数 θ を統計的に「妥当な」一点 α に決めるとき、この α を統計的決定といいます。

たとえば、θ の確率分布を示す確率密度関数を f(θ) としたとき、その f(θ) が平均 μ 、分散 σ^2 の正規分布であった場合、θ の推定値は f(θ) の平均値、すなわち、μ をとれば「文句はなさそう」です。
この場合の統計的決定は α = μ ということになります。
f:id:tsujimotter:20131117183518p:plain

では、この f(θ) が一般の確率密度関数だった場合はどうでしょう。

f(θ) の平均値が「良い」ですか?次のような分布だったら、たしかに平均が「良さそう」です。
f:id:tsujimotter:20131117183533p:plain
一方で、たとえばこんな分布だったらどうでしょう。
f:id:tsujimotter:20131117183548p:plain
平均値は、ちょうど二つの山の間となってしまい、どっちつかずの印象ですね。むしろ、右の大きな山の頭のあたりを取ったほうが、まだ「良さそう」な気がします。こういう値を最頻値といいますね。

そもそも、統計的決定の「良さ」とはなんでしょうか。この「良さ」の基準を定量的に考え、最適な統計的決定を求めること。これこそが統計的決定理論の趣旨であり、私たちが学ぶべきことと言えます。

2. 損失関数

統計的決定理論においては、統計的決定の「良さ」を表す基準として、損失関数 (loss function) を導入します。損失関数は、確率変数 θ と 統計的決定 α を引数とした関数で、α と θ に差があったときに、その差に応じて 「損失」 の大きさが決まるものです。実際の値 θ と その決定 α に差があるほど「損失」が大きいと考え、その損失を最小化する統計的決定を考えたいわけです。

具体的な損失関数は、たとえば次のようなものを考えます。

a. 平方損失

 \displaystyle L(\theta, \alpha)=\left(\theta-\alpha\right)^2

b. 絶対損失

 \displaystyle L(\theta, \alpha)=\left|\theta-\alpha\right|

c. 0-1型単純損失

 L(\theta, \alpha)=
\left\{\begin{array}{l}
0 & \:\:(|\theta-\alpha|\leq\Delta)\\
1 & \:\:(otherwise)
\end{array} \right.

統計的決定理論では、損失関数の期待値(以下、期待損失)が小さいほど「良い」統計的決定と考えます。θ はあくまで確率変数ですから、たった一回の計測で得られた θ を基に α の良し悪しを評価しても仕方ありませんね。だから期待値をとるのです。つまり、最適な統計的決定とは「期待損失を最小化するような α である」ということです。


確率変数 θ が確率密度関数 f(θ) に基づいて発生するとき、統計的決定 α の期待損失は

 \displaystyle R(\alpha)=\int_{-\infty}^{\infty} L(\theta, \alpha) f(\theta){\rm d}\theta
で表せます。

期待損失を最小化する α が、(確率密度関数 f(θ) にしたがう) θ に対する最良の統計的決定となります。すなわち、

 \displaystyle \min_{\alpha} R(\alpha)
です。

一般に、損失関数が定まったときの最適な統計的決定は、解析的に求められる場合もあれば、そうでない場合もあります。興味深いことに、上記で挙げた3つの損失関数に対しては、統計的決定が解析的に計算できるのです。以下で実際に計算してみましょう。

3. 平方損失の場合

 \displaystyle L(\theta, \alpha)=\left(\theta-\alpha\right)^2

として、R(α)を計算すると

 \displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\infty} (\theta-\alpha)^2 f(\theta){\rm d}\theta \\
 &=& \int_{-\infty}^{\infty} \theta^2 f(\theta){\rm d}\theta - 2\alpha \int_{-\infty}^{\infty} \theta f(\theta){\rm d}\theta +\alpha^2 \int_{-\infty}^{\infty} f(\theta){\rm d}\theta \end{eqnarray}

ここで、∫f(θ)dθ は全θに対する確率密度関数の和であるため、確率の定義より ∫f(θ)dθ=1 となります。また、∫θf(θ)dθ は 確率密度関数 f(θ) に従う確率変数 θ の期待値ですから ∫θf(θ)dθ = E[θ] です。

よって、

 \displaystyle R(\alpha)=\int_{-\infty}^{\infty} \theta^2 f(\theta){\rm d}\theta - 2\alpha E[\theta] + \alpha^2
これを α で微分して、イコール 0 とすれば極値が求められますから、それが最小値になっているはずです。
 \displaystyle \frac{{\rm d}R}{{\rm d}\alpha}= -2 E[\theta] + 2\alpha = 0
より、
 \displaystyle \alpha =  E[\theta]

つまり、平方損失における最良の統計的決定は 確率分布 f(θ) の平均値ということがわかりました。

結論1:平均値は、平方損失の期待損失を最小化する

たしかに直感的にはそんな感じがしますが、平均値という値に「平方損失最小化」という意味が付くというのは非常に面白いですね!

4. 絶対損失の場合

 \displaystyle L(\theta, \alpha)=\left|\theta-\alpha\right|

として、R(α)を計算すると

 \displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\infty} |\theta-\alpha|f(\theta){\rm d}\theta \\
 &=& \int_{-\infty}^{\alpha} -(\theta-\alpha)f(\theta){\rm d}\theta + \int_{\alpha}^{\infty} (\theta-\alpha)f(\theta){\rm d}\theta \\
 &=& \alpha \left\{\int_{-\infty}^{\alpha}f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}f(\theta){\rm d}\theta\right\} -\left\{\int_{-\infty}^{\alpha}\theta f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}\theta f(\theta){\rm d}\theta\right\} \end{eqnarray}


平方損失のときと同様に α で微分して、イコール 0 として極値を求めましょう。

 \displaystyle \begin{eqnarray} \frac{{\rm d}R}{{\rm d}\alpha} &=& \left\{\int_{-\infty}^{\alpha}f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}f(\theta){\rm d}\theta\right\} +\alpha\left\{f(\alpha)-(-f(\alpha))\right\} - \left\{\alpha f(\alpha)-(-\alpha f(\alpha))\right\} \\
 &=& 0 \end{eqnarray}

よって

 \displaystyle \int_{-\infty}^{\alpha}f(\theta){\rm d}\theta = \int_{\alpha}^{\infty}f(\theta){\rm d}\theta

これで求める式は得られたのですが、パッと見て意味はわかりづらいですね。
図で考えましょう。
f:id:tsujimotter:20131117185910p:plain
左側の面積と右側の面積が等しいということです。αで確率密度関数の面積を均等に分割していますから、このαは分布の中央値を表していますね。
これより 絶対損失における 統計的決定 α は f(θ) の中央値であるいうことがわかります。

結論2:中央値は、絶対損失の期待損失を最小化する

中央値も出てきました!最後に、0-1型単純損失の場合はどうでしょうか。

5. 0-1型単純損失

 L(\theta, \alpha)=
\left\{\begin{array}{l}
0 & \:\:(|\theta-\alpha|\leq\Delta)\\
1 & \:\:(otherwise)
\end{array}\right.

として、R(α)を計算すると

 \displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\alpha-\Delta}f(\theta){\rm d}\theta + \int_{\alpha+\Delta}^{\infty}f(\theta){\rm d}\theta \\
 &=& 1 - \int_{\alpha-\Delta}^{\alpha+\Delta}f(\theta){\rm d}\theta \end{eqnarray}

十分小さな Δ に対しては右辺の積分は

 \displaystyle \int_{\alpha-\Delta}^{\alpha+\Delta}f(\theta){\rm d}\theta \simeq 2\Delta \cdot f(\alpha)

と f(α) に比例するとみなせます。(2Δを一辺とする縦長の長方形を考えてみてください。)
よって、R(α) を最小化するためには、f(α) を最大化すればよいことがわかります。
f(α) を最大化するαは最頻値ということですね。

したがって、0-1型単純損失における統計的決定 α は f(θ) の最頻値を取ればいいことがわかります。

結論3:最頻値は、0-1型単純損失の期待損失を最小化する

6. まとめ

以上をまとめると、次のようになります。

f:id:tsujimotter:20131117194649p:plain

今回は、統計的決定理論に基づいて平方損失・絶対損失・0-1型単純損失のそれぞれに最適な統計的決定を求めました。その結果として、それぞれの損失関数に対応して、統計的な分布を代表する値(代表値)の3つである平均値・中央値・最頻値が得られました。

今回の結果から逆説的に、今回のサブタイトルでもある「平均値・中央値・最頻値の意味」を考えることもできるでしょう。これらは、平方損失・絶対損失・0-1型単純損失の3つの期待損失をそれぞれ最小化する値だったのです。

男には決断しなきゃいけない時があります。決断に困ったら確率分布とお好みの損失関数を用意してください(笑)。

参考文献

以下の本の第二章を参考に書いています。非常にわかりやすい本なので、よかったら読んでみてください。

[1] 松原望 著「入門ベイズ統計―意思決定の理論と発展」東京図書 (2008年)

入門ベイズ統計―意思決定の理論と発展

入門ベイズ統計―意思決定の理論と発展

追記

統計的決定理論は英語でStatistical Decision Theoryといいます。この記事を書くためにいろいろ調べたのですが、日本語も英語もなかなかちゃんと書いてある記事がない。
もちろん、「平方損失・絶対損失・単純損失に対応して、平均値・中央値・最頻値が導かれるという事実」までは書いてあるのですが。それ自体はWikipediaにも書いてあったりしますね。

中央値 - Wikipedia

しかしながら、どの記事にも肝心の導出が書かれていない。そこが一番面白いところなのに!(と思いませんか?)
上記の文献にも平方損失の導出まではちゃんと書いてありますが、中央値に関しては結果しか書かれていません。
その後、かなり探して次の文献を見つけましたので、ここに記しておきます。ちゃんと証明が載っています。

ベイズ推定とカルマンフィルタ Bayesian Brain

また、統計的決定は「ベイズ決定」とも呼ばれているそうですね。ベイズ推定の結果は「事後確率」という分布でしか表せないので、具体的な推定値を求めるためには統計的決定が必須なのです。