前回の記事「イロレーティングの散歩道 2:理想世界の散策」では「実力レートと表示レートが一致している理想世界」を考えました。今回は「表示レートにゆらぎのある非理想世界」を考えます。

非理想世界では、住人の表示レートは実力レートの周りを揺らいでいます。中心極限定理が成立していると仮定すると、その確率分布は実力レートを平均とする正規分布になります。以下では、確率分布が正規分布となっている非理想世界を考えましょう。

この世界では、表示レートと実力レートが異なるため、表示レートで選出した対局相手に対する勝率も理想世界のものとは異なってきます。実際に、表示レートは一緒でも、その中には様々な実力レートの住人が混じっているため、勝率を求めるには確率分布を用いて期待値を計算しなければなりません。

具体的に数式で表すと、実力レート\[R_{e}\]のE君が、表示レート\[R_{W}\]の相手に勝つ確率は、\[P_{\lim}(R_{e}, R_{W}) = \int_{R_{\min}}^{R_{\max}} d{R_{w}}~ \rho_{w}(R_{w}; R_{W})~ E(R_{e} - R_{w})\]となります。ここで、\[E(dR) = \frac{1}{1 + 10^{- dR / 400}}\]は、前回の記事でも用いたイロレーティングの勝率式であり、\[\rho_{w}(R_{w}; R_{W}) = N e^{- (R_{w} - R_{W})^{2} / (2 s_{w}^{2})}\]は、住人の実力レートが\[R_{w}\]の時の表示レートの確率分布(正規分布)です。下付き添え字が小文字の時は実力レート、大文字の時は表示レートという記法にしています。下式中の\[s_{w}\]は標準偏差に対応する定数であり、また、係数Nは規格化条件:\[\int_{R_{\min}}^{R_{\max}} d{R_{w}}~ \rho_{w}(R_{w}; R_{W}) = 1\]によって決定されます。

ここで、式中の積分の上限と下限は、世界の住人の実力レートの上限と下限の境界を意味しているわけですが、とりあえず今回はスキップして、\[R_{\min} \to - \infty,~ R_{\max} \to + \infty\]としておいて、境界の問題については後の記事で改めて取り扱うことにします。

この場合の勝率を\[P_{\lim}(R_{e}, R_{W}) = P_{\infty}(R_{e}, R_{W})\]と書くとすると、\[P_{\infty}(R_{e}, R_{W}) = \int_{- \infty}^{+ \infty} \frac{d{z}}{\sqrt{2 \pi}} \frac{e^{- z^{2} / 2}}{1 + 10^{(s_{w} z - R_{e} + R_{W}) / 400}}\]となり、この関数はレート差\[R_{e} - R_{W}\]のみに依存します。ここで、\[z = \frac{R_{w} - R_{W}}{s_{w}}\]という積分変数の変換を行いました。

また、\[s_{w} \to 0\]の極限を取ると、確率分布はディラックのデルタ関数となるため、\[P_{\lim}(R_{e}, R_{W}) \to E(R_{e} - R_{W})\]となります。つまり、揺らぎが小さい極限では、数式上においても理想世界に戻るということです。

勝率\[P_{\infty}(R_{e}, R_{W})\]を下図にプロットします。黒線は理想世界の極限で、赤線が\[s_{w} = 100\]の場合です。

elo_syouritu

前回の記事を思い起こしてもらうと、標準偏差が100というのは結構大きな揺らぎであるわけですが、黒線と赤線との差はそんなに大きくありません。言い換えると、イロレーティングの勝率の式は揺らぎに対して、かなり頑強(ロバスト)であるということが分かります。これはシステムにとって非常に重要なことであり、揺らぎに対して大きく結果が変わってきてしまうようでは、システムを安定的に運用していくことはできません。

また、基本的な傾向として、揺らぎが大きいほど、勝率はレート差に依らずに5割の方向に近づいていく傾向があることが分かります(黒線と赤線の違い)。実際に、ここでは具体的に表示はしませんが、揺らぎの標準偏差\[s_{w}\]が大きくなるほど、勝率の線は5割に近づき、平らになっていきます。

このような傾向は一般化することができ、一般的に揺らぎやノイズが大きくなるほど、勝率は5割の方向に近づいていくという傾向があります。その極端な例が「レート差に依存せずに全て勝率5割」という“デタラメ”世界です。このような“デタラメ”世界では、イロレーティングはランダムウォーク(酔歩)となり、E君の軌跡の標準偏差は対局数の平方根に比例して、対局数が増えると発散してしまいます。今回の場合には、どんなに揺らぎを大きくしても、「勝率はレート差に対して単調増加関数である」ということが数学的に保障されているため、完全にランダムウォークになることはありませんが、揺らぎを大きくすると近似的にそれに近づいていく(すなわち、E君の軌跡の標準偏差が増加する)だろうということは予測できます。

さて、前回と同様に、この世界にE君を召還して対局してもらいましょう。シミュレーションのやり方は基本的に前回と同じで、勝敗判定時の勝率の計算式が上記のものに変わっただけです。対局数も前回と同様に1億です。

結果的に、軌跡の頻度分布がほぼ正規分布となるところは前回と同じになりますが、分布の標準偏差の値が変わってきます。揺らぎの標準偏差を変えた時の分布の標準偏差の変化を下図にプロットしました。また、線形回帰を行い、それぞれの回帰直線を記しました。線形回帰については「データから線を引く 2:線形回帰と最小二乗法」の解説記事をご覧ください。

niw_s-d

回帰直線の傾きが全て正であることから、「揺らぎが大きくなると軌跡の標準偏差が増加する」という上述の予測が正しいことが確認できます。また、傾きの値がとても小さいことから、イロレーティングが頑強であることも同時に確認できます。さらに、それぞれの回帰直線を比較すると、傾きのK依存性は小さいようですが、Sに対しては正の相関がありそうです。この傾きのS依存性は、上で示した勝率の図に見られるように、レート差の絶対値が大きい方が揺らぎによる勝率のずれが大きくなっているためと考えられます。

この図では横軸が65までを表示していますが、さらに先はどうなっているのかと思われる方もいるかもしれません。しかし、実はこれ以上の先を示しても、あまり意味がないのです。このことは次回の記事で論じましょう。

以上、今回は「表示レートにゆらぎのある非理想世界」を考えました。結果として、揺らぎが大きくなると軌跡の標準偏差が僅かに増加するということが明らかになり、また、イロレーティングが揺らぎに対して頑強であるということも分かりました。

次回は、今回は所与の定数としていた「揺らぎの標準偏差」について、改めて考えてみたいと思います。