統計的決定理論～平均値・中央値・最頻値って何？～

「統計的決定理論」とは何か？はじめてこの名前を聞いた方も多いかと思います。まずはざっくりと統計的決定理論について説明してみましょう。

統計的決定理論とは、
「うーん、あっちが良いかもしれないなあ。いや、こっちかなあ。」
と決めかねているときに、
「男ならウダウダ軟弱なこと言ってないで一点に決めてみろ。」
と背中を押してくれる理論のことです。

単に背中を押すだけでなく、１つの答えを決定するための指針と方法を与えてくれます。男前な理論ですね。

とはいえ、この説明ではいったい何のことだか、よくわからないですよね（笑）

以下では、真面目に統計的決定理論について説明てみたいと思います。ちょっと長いですが、お付き合い頂けるとうれしいです。

1. 統計的決定とは

ある確率分布にしたがう確率変数 θ を統計的に「妥当な」一点 α に決めるとき、この α を統計的決定といいます。

たとえば、θ の確率分布を示す確率密度関数を f(θ) としたとき、その f(θ) が平均 μ 、分散 σ^2 の正規分布であった場合、θ の推定値は f(θ) の平均値、すなわち、μ をとれば「文句はなさそう」です。
この場合の統計的決定は α = μ ということになります。
f:id:tsujimotter:20131117183518p:plain

では、この f(θ) が一般の確率密度関数だった場合はどうでしょう。

f(θ) の平均値が「良い」ですか？次のような分布だったら、たしかに平均が「良さそう」です。
f:id:tsujimotter:20131117183533p:plain
一方で、たとえばこんな分布だったらどうでしょう。
f:id:tsujimotter:20131117183548p:plain
平均値は、ちょうど二つの山の間となってしまい、どっちつかずの印象ですね。むしろ、右の大きな山の頭のあたりを取ったほうが、まだ「良さそう」な気がします。こういう値を最頻値といいますね。

そもそも、統計的決定の「良さ」とはなんでしょうか。この「良さ」の基準を定量的に考え、最適な統計的決定を求めること。これこそが統計的決定理論の趣旨であり、私たちが学ぶべきことと言えます。

2. 損失関数

統計的決定理論においては、統計的決定の「良さ」を表す基準として、損失関数 (loss function) を導入します。損失関数は、確率変数 θ と統計的決定 α を引数とした関数で、α と θ に差があったときに、その差に応じて　「損失」の大きさが決まるものです。実際の値 θ とその決定 α に差があるほど「損失」が大きいと考え、その損失を最小化する統計的決定を考えたいわけです。

具体的な損失関数は、たとえば次のようなものを考えます。

a. 平方損失

$\displaystyle L(\theta, \alpha)=\left(\theta-\alpha\right)^2$

b. 絶対損失

$\displaystyle L(\theta, \alpha)=\left|\theta-\alpha\right|$

c. 0-1型単純損失

$L(\theta, \alpha)= \left\{\begin{array}{l} 0 & \:\:(|\theta-\alpha|\leq\Delta)\\ 1 & \:\:(otherwise) \end{array} \right.$

統計的決定理論では、損失関数の期待値（以下、期待損失）が小さいほど「良い」統計的決定と考えます。θ はあくまで確率変数ですから、たった一回の計測で得られた θ を基に α の良し悪しを評価しても仕方ありませんね。だから期待値をとるのです。つまり、最適な統計的決定とは「期待損失を最小化するような α である」ということです。

確率変数 θ が確率密度関数 f(θ) に基づいて発生するとき、統計的決定 α の期待損失は

$\displaystyle R(\alpha)=\int_{-\infty}^{\infty} L(\theta, \alpha) f(\theta){\rm d}\theta$

で表せます。

期待損失を最小化する α が、（確率密度関数 f(θ) にしたがう） θ に対する最良の統計的決定となります。すなわち、

$\displaystyle \min_{\alpha} R(\alpha)$

です。

一般に、損失関数が定まったときの最適な統計的決定は、解析的に求められる場合もあれば、そうでない場合もあります。興味深いことに、上記で挙げた3つの損失関数に対しては、統計的決定が解析的に計算できるのです。以下で実際に計算してみましょう。

3. 平方損失の場合

$\displaystyle L(\theta, \alpha)=\left(\theta-\alpha\right)^2$

として、R(α)を計算すると

$\displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\infty} (\theta-\alpha)^2 f(\theta){\rm d}\theta \\ &=& \int_{-\infty}^{\infty} \theta^2 f(\theta){\rm d}\theta - 2\alpha \int_{-\infty}^{\infty} \theta f(\theta){\rm d}\theta +\alpha^2 \int_{-\infty}^{\infty} f(\theta){\rm d}\theta \end{eqnarray}$

ここで、∫f(θ)dθ は全θに対する確率密度関数の和であるため、確率の定義より ∫f(θ)dθ=1 となります。また、∫θf(θ)dθ は確率密度関数 f(θ) に従う確率変数 θ の期待値ですから ∫θf(θ)dθ = E[θ] です。

よって、

$\displaystyle R(\alpha)=\int_{-\infty}^{\infty} \theta^2 f(\theta){\rm d}\theta - 2\alpha E[\theta] + \alpha^2$

これを α で微分して、イコール 0 とすれば極値が求められますから、それが最小値になっているはずです。

$\displaystyle \frac{{\rm d}R}{{\rm d}\alpha}= -2 E[\theta] + 2\alpha = 0$

より、

$\displaystyle \alpha = E[\theta]$

つまり、平方損失における最良の統計的決定は確率分布 f(θ) の平均値ということがわかりました。

結論１：平均値は、平方損失の期待損失を最小化する

たしかに直感的にはそんな感じがしますが、平均値という値に「平方損失最小化」という意味が付くというのは非常に面白いですね！

4. 絶対損失の場合

$\displaystyle L(\theta, \alpha)=\left|\theta-\alpha\right|$

として、R(α)を計算すると

$\displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\infty} |\theta-\alpha|f(\theta){\rm d}\theta \\ &=& \int_{-\infty}^{\alpha} -(\theta-\alpha)f(\theta){\rm d}\theta + \int_{\alpha}^{\infty} (\theta-\alpha)f(\theta){\rm d}\theta \\ &=& \alpha \left\{\int_{-\infty}^{\alpha}f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}f(\theta){\rm d}\theta\right\} -\left\{\int_{-\infty}^{\alpha}\theta f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}\theta f(\theta){\rm d}\theta\right\} \end{eqnarray}$

平方損失のときと同様に α で微分して、イコール 0 として極値を求めましょう。

$\displaystyle \begin{eqnarray} \frac{{\rm d}R}{{\rm d}\alpha} &=& \left\{\int_{-\infty}^{\alpha}f(\theta){\rm d}\theta - \int_{\alpha}^{\infty}f(\theta){\rm d}\theta\right\} +\alpha\left\{f(\alpha)-(-f(\alpha))\right\} - \left\{\alpha f(\alpha)-(-\alpha f(\alpha))\right\} \\ &=& 0 \end{eqnarray}$

よって

$\displaystyle \int_{-\infty}^{\alpha}f(\theta){\rm d}\theta = \int_{\alpha}^{\infty}f(\theta){\rm d}\theta$

これで求める式は得られたのですが、パッと見て意味はわかりづらいですね。
図で考えましょう。
f:id:tsujimotter:20131117185910p:plain
左側の面積と右側の面積が等しいということです。αで確率密度関数の面積を均等に分割していますから、このαは分布の中央値を表していますね。
これより絶対損失における統計的決定 α は f(θ) の中央値であるいうことがわかります。

結論２：中央値は、絶対損失の期待損失を最小化する

中央値も出てきました！最後に、0-1型単純損失の場合はどうでしょうか。

5. 0-1型単純損失

$L(\theta, \alpha)= \left\{\begin{array}{l} 0 & \:\:(|\theta-\alpha|\leq\Delta)\\ 1 & \:\:(otherwise) \end{array}\right.$

として、R(α)を計算すると

$\displaystyle \begin{eqnarray} R(\alpha) &=& \int_{-\infty}^{\alpha-\Delta}f(\theta){\rm d}\theta + \int_{\alpha+\Delta}^{\infty}f(\theta){\rm d}\theta \\ &=& 1 - \int_{\alpha-\Delta}^{\alpha+\Delta}f(\theta){\rm d}\theta \end{eqnarray}$

十分小さな Δ に対しては右辺の積分は

$\displaystyle \int_{\alpha-\Delta}^{\alpha+\Delta}f(\theta){\rm d}\theta \simeq 2\Delta \cdot f(\alpha)$

と f(α) に比例するとみなせます。（2Δを一辺とする縦長の長方形を考えてみてください。）
よって、R(α) を最小化するためには、f(α) を最大化すればよいことがわかります。
f(α) を最大化するαは最頻値ということですね。

したがって、0-1型単純損失における統計的決定 α は f(θ) の最頻値を取ればいいことがわかります。

結論３：最頻値は、0-1型単純損失の期待損失を最小化する

6. まとめ

以上をまとめると、次のようになります。

f:id:tsujimotter:20131117194649p:plain

今回は、統計的決定理論に基づいて平方損失・絶対損失・0-1型単純損失のそれぞれに最適な統計的決定を求めました。その結果として、それぞれの損失関数に対応して、統計的な分布を代表する値（代表値）の３つである平均値・中央値・最頻値が得られました。

今回の結果から逆説的に、今回のサブタイトルでもある「平均値・中央値・最頻値の意味」を考えることもできるでしょう。これらは、平方損失・絶対損失・0-1型単純損失の３つの期待損失をそれぞれ最小化する値だったのです。

男には決断しなきゃいけない時があります。決断に困ったら確率分布とお好みの損失関数を用意してください（笑）。

参考文献

以下の本の第二章を参考に書いています。非常にわかりやすい本なので、よかったら読んでみてください。

[1] 松原望著「入門ベイズ統計―意思決定の理論と発展」東京図書 (2008年)

入門ベイズ統計―意思決定の理論と発展

作者: 松原望
出版社/メーカー: 東京図書
発売日: 2008/06
メディア: 単行本
購入: 107人クリック: 2,061回
この商品を含むブログ (46件) を見る

追記

統計的決定理論は英語でStatistical Decision Theoryといいます。この記事を書くためにいろいろ調べたのですが、日本語も英語もなかなかちゃんと書いてある記事がない。
もちろん、「平方損失・絶対損失・単純損失に対応して、平均値・中央値・最頻値が導かれるという事実」までは書いてあるのですが。それ自体はWikipediaにも書いてあったりしますね。

中央値 - Wikipedia

しかしながら、どの記事にも肝心の導出が書かれていない。そこが一番面白いところなのに！（と思いませんか？）
上記の文献にも平方損失の導出まではちゃんと書いてありますが、中央値に関しては結果しか書かれていません。
その後、かなり探して次の文献を見つけましたので、ここに記しておきます。ちゃんと証明が載っています。