本題に入る前に今後よく使われることになる平均と標準偏差について統計学の授業風に解説します。「そんなの知ってるよ」って方は飛ばしてください。

まず、SF的な架空の話として、将棋のルールが変わらない程度に微妙に異なる多数の平行世界(パラレルワールド)を飛び回って膨大な数の棋譜を集めてきたとします。この棋譜には、この世界では実現されていない無数の対局が記述されており、ここから得られるデータが我々が真に知りたい情報ということになります。ここでは、その膨大な棋譜から取り出した膨大なN個の数値データの集団(母集団という)\[\{X_1, X_2, \dots, X_N\}\]を考えます。

母集団の平均(母平均)は\[\mu = \frac{1}{N} \sum_{i = 1}^{N} X_{i}\]で定義され、母集団の標準偏差(母標準偏差)は\[\sigma = \sqrt{\frac{1}{N} \sum_{i = 1}^{N} ( X_{i} - \mu )^{2}}\]で定義されます。また、母標準偏差の2乗である\[\sigma^{2}\]は母分散と呼ばれます。

平均は文字通り平均値のことであり、標準偏差は平均から分布がどのくらい広がっているのかを表している量です。例えば、平均4、標準偏差1ならば、こんな感じになります。
fig1
ただし、実際に分布がどんな形になっているのかは母集団によります。

さて、ここで問題になるのは、我々は実際にはパラレルワールドを行き来できないため、膨大な棋譜の中のごく一部(標本、サンプルと言う)しか持っていないということです。いかにして標本から母集団の統計情報を推定するのかということを考えなければなりません。

標本の数値データの集団(母集団の一部)を\[\{x_1, x_2, \dots, x_n\}\]とする時、母平均を推定するには、標本の平均\[m = \frac{1}{n} \sum_{i = 1}^{n} x_{i}\]を計算します。実際に、無数のパラレルワールドをランダムに巡って、各世界での標本の平均を集めて、それらの平均E[m](期待値と言う)をとると母平均と一致します。すなわち、\[E[m] = \mu\]となります。この計算は標本の集団が母集団の一部であることを考えると自明です。

では、母分散の場合はどうでしょうか?

平均と同様に標本の分散\[S^{2} = \frac{1}{n} \sum_{i = 1}^{n} ( x_{i} - m )^{2}\]を考えると変なことが起こります。例えば、n = 1の時、\[m = x_1\]ですので、\[S^{2} = 0\]となってしまい、どんなに多世界のn = 1の標本の分散を集めて平均を取って期待値を計算しても0は0で母分散にはなりません。これはn = 1だけに特有な現象ではなく、一般に標本の分散の期待値は\[E[S^{2}] = \frac{n - 1}{n} \sigma^{2}\]になってしまいます。ここの導出はそれなりに長いので省略します。このような食い違いが出てくるのは、平均が線形和であるのに対して、分散が2乗和で非線形だからです。一般に、非線形な統計量においては、特殊な母集団分布の場合を除いて、標本の統計量を多数集めた分布は、平均が元の母集団の統計量からズレており、偏った形になってしまいます。

ということで、母分散の推定には、不偏分散\[u^{2} = \frac{1}{n - 1} \sum_{i = 1}^{n} ( x_{i} - m )^{2}\]を使います。この不偏分散の期待値は母分散に一致します。

最後に母標準偏差の推定ですが、これも非線形なので標本の標準偏差というわけにはいきません。不偏分散の平方根をとるのも期待値が母標準偏差に一致しません。真面目に期待値が母標準偏差になるようにしたのが、不偏標準偏差\[D = \frac{\Gamma(n / 2 - 1 / 2)}{\Gamma(n / 2)} \sqrt{\frac{1}{2} \sum_{i = 1}^{n} ( x_{i} - m )^{2}}\]です。この導出もそれなりに大変なので省略します。ここで、\[\Gamma(z)\]というのは統計学によく出てくるガンマ関数という特殊関数です。このガンマ関数に対してスターリングの公式を適用して、nの大きいところで\[1 / n^{2}\]以下の項を無視すると、不偏標準偏差は\[D \approx \sqrt{\frac{1}{n - 3 / 2} \sum_{i = 1}^{n} ( x_{i} - m )^{2}}\]と近似できます。実際には、この近似式がよく用いられます。

このブログでは標準偏差として不偏標準偏差Dを用いています。

このような不偏推定値を用いるのは統計処理の一つの「作法」でありますが、「常にそうするべきか?」というのは論争のタネになります。分散や標準偏差のように簡単な関数で書ける場合にはいいのですのが、もっと複雑な処理の場合に不偏推定値がどうなるのかは大問題(ものによってはそれだけで学術論文になるレベル)ですし、「そこまでコストをかけてやることか?」「標本数が多ければ一緒でしょ?」「不偏推定値が上手く機能しないケースだってあるし」等ということにもなってきます。一方で「統計学的に正確に行うことが科学の普遍性だ」というような原理主義的な考え方の人もいて、研究者によって意見が対立してくることになるわけです。まぁ実際にはそこまで極端な人は少数だと思いますが。