このブログではコンピュータ将棋に関する様々な統計量を取り扱っており、記事を理解する際に統計学の知識が必要となることがあります。以前の解説記事「平均と標準偏差:それって不偏推定値?」では、平均と標準偏差についての解説を行いました。今回は相関係数と線形回帰についての解説を行います。「そんなの知ってるよ」という方は飛ばしてください。
ある2つの変数xとyがある時、その間になんらかの相関関係:\[f(x, y) = 0\]があるのではないかという疑念を抱くことがあります。もしも、xとyについて正確なデータが無限にあるのであれば、関係を証明することは容易です。しかしながら、実際には有限個のサンプルの組\[\{ (x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n) \}\]しかなく、しかも値は必ずしも正確ではなくて誤差が含まれてしまっています。このような状況で「相関関係があるのかどうか、また、あるとしたら実際にf(x, y)はどうなるのか」を推定するには、どうしたらよいのでしょうか?
相関関係の内、最もシンプルで基本的な関係は線形関係:\[y = a x + b\]です。今回は線形関係に絞って解説します。
まずはサンプルをx軸、y軸上にプロットしてみましょう。相関関係がない(無相関)の場合には下の図1のようになるはずであり、誤差が無視できるような綺麗な線形関係の場合には図2や図3のようになるはずです。このような「見える化」を行えば、相関の有無が視覚的に分かることになります。

ここで用心深い人なら「ちょっと待てよ」と疑問が浮かぶかもしれません。「グラフの描き方に任意性はないのか」と。確かにグラフの描き方には、原点の取り方、並びに縦軸と横軸のスケールの取り方という任意性があります。実際に図4は図1と同じサンプルデータですが、グラフの描き方が違うため、与える印象も変わってくるかもしれません。そこで、通常はグラフの描き方を以下のルールで統一します。
上記のルールで任意の領域の線形関係の直線をプロットすると、傾き+1の直線(a > 0の時、図2参照)か、傾き-1の直線(a < 0の時、図3参照)になり、表示されたグラフはaの符号のみに依っていて、aやbの値には依らなくなります(a = 0の時はそもそも無関係)。サンプルデータが傾き+1の直線に近い時を正の(線形)相関があると言い、傾き-1の直線に近い時を負の(線形)相関があると言います。
このように視覚的に確認するのは有効なやり方ですが、数値化することも大切です。完全に正の相関がある時には+1となり、完全に負の相関がある時には-1となり、無相関の時には0となって、そうでない時には、それらの間の値を取るような指標があると便利になります。
その代表的なものがピアソンの相関係数(積率相関係数や線形相関係数とも言う):\[r = \frac{S_{uv}}{\sqrt{S_{uu} S_{vv}}}\]です。ここで、\[S_{uv} = \sum_{i = 1}^{n} \frac{u_{i} v_{i}}{n},~~ S_{uu} = \sum_{i = 1}^{n} \frac{u_{i}^{2}}{n},~~ S_{vv} = \sum_{i = 1}^{n} \frac{v_{i}^{2}}{n}\]と\[u_{i} = x_{i} - \bar{x},~~ v_{i} = y_{i} - \bar{y}\]を導入しました。\[\bar{x},~~ \bar{y}\]は、それぞれxとyの平均です。単に相関係数という場合には、通常はこれのことを意味しています。この式は、平均が0になるようにシフトしたxとyのサンプルデータをそれぞれベクトルだと考えた時に、その単位ベクトルの内積になっています。単位ベクトルの内積なので、必ず-1から+1の範囲の値をとります。完全な線形相関の場合には、ベクトルが線形従属になりますので、その単位ベクトルの内積は+1か-1です。無相関の乱数の時に0に近くなるのも明らかでしょう。
ピアソンの相関係数の絶対値が1に近い時には線形相関があることが確認できます。また、絶対値が小さい時には、線形相関があるかが確認できないので、相関係数自体の意味が乏しくなり、次の記事で解説する線形回帰の結果も怪しくなってきます。実際に、次の記事で示す通り、相関係数は線形回帰の当てはまりの良さを示す量(残差の二乗和)と関係しています。
相関係数には他にも様々なものがあり、大きさではなく順位のみを見る(ノンパラメトリックと言う)スピアマンの相関係数やケンドールの相関係数などが有名です。一般的にノンパラメトリックな方法は、データの誤差に対して頑強(ロバスト)である一方で、信頼できる結果を得るにはサンプル数をより多く必要とするという特徴があります。
さて、上述の通り、ピアソンの相関係数は線形相関が確認できない場合には、あまり意味のない量なのですが、現実には絶対値がかなり小さいのにもかかわらず用いられていることがあります。実際にどれくらい絶対値が大きければ、相関があると考えることができるのでしょうか?
仮にxとyが完全に無相関であり、ある範囲から無作為に選ばれると仮定すると(帰無仮説)、その時の相関係数の絶対値が実際の相関係数rの絶対値よりも大きくなる確率Pは、nが十分に大きければ、\[P = erfc{( \frac{|r| \sqrt{n}}{\sqrt{2}} )}\]と近似できます。ここで、\[erfc(x) = 1 - erf(x)\]は誤差関数erf(x)の補関数です。つまり、仮に無相関であったとしても、Pの確率で偶然、|r|以上の値が出てきてしまうということなので、Pが十分に小さくないと相関があるとは言えません。この時、十分に小さいという判定基準を有意水準と呼び、例えば、5%や1%等が使われます。具体的に5%の場合には、おおよそ\[|r| > \frac{2}{\sqrt{n}} \]の時に相関があると考えることができます。この他にも相関係数の値から相関の有無を検定する方法はありますが、ここで紹介した以外の手法はxとyの分布が正規分布であるという特殊な仮定に基づいたものであることが多いので注意してください。
前段落の論法は統計学で常習的に用いられ、「5%の有意水準で帰無仮説が棄却され、相関は統計学的に有意である」等と言います。ここで注意してほしいのは、「統計学的に有意でない」=「このサンプルデータからは相関があるかどうかは分からない」ということであって、必ずしも「相関がない」ということを意味しているわけではないということです。推理小説風に例えると、「この調査結果からはAが犯人かどうかは分からない」という事は「Aは犯人ではない」という事とは一致しないということになります。ここのところは非常に混同しやすく、研究者でも勘違いをしやすいものです(経済学者が混同してしまっている例は、例えば、ディアドラ・N・マクロスキー「ノーベル賞経済学者の大罪」に記されています)。また、統計学的有意性とサンプルデータの正確性は関係ありませんし、統計学的有意性とその相関の科学的な重要性が関係ないことも言うまでもありません。
最後に、相関の話をする際にお約束となっている相関関係と因果関係の違いについても記しておきます。相関関係「xとyが関係している」と因果関係「xがyの原因である」が違うというのは当たり前のことなのですが、もう一歩踏み込んで書くと、そもそも科学においては因果関係を証明するという事は非常に大変なことなのです。相関関係というのはデータを集めて統計処理すれば出てくるもので、言わばただの観測事実に過ぎません。一方で、因果関係というのは最終的にメカニズムを解明しないと分からないものであり、科学研究の立場からすると、相関関係とは全くレベルの異なる課題ということになります。その両者を混同してしまうというのは「因果関係は簡単に分かるはず」という人間の思い込みに由来しているのではないかと思われます(この因果関係も証明は困難ですが)。
以上、ピアソンの相関係数を計算することにより、線形相関の有無を確認できることが分かりました。それでは線形相関が見られる時に具体的に\[y = a x + b\]のaとbはどのように推定したらいいのでしょうか? それを次の記事で解説します。
ある2つの変数xとyがある時、その間になんらかの相関関係:\[f(x, y) = 0\]があるのではないかという疑念を抱くことがあります。もしも、xとyについて正確なデータが無限にあるのであれば、関係を証明することは容易です。しかしながら、実際には有限個のサンプルの組\[\{ (x_1, y_1), (x_2, y_2), \cdots, (x_n, y_n) \}\]しかなく、しかも値は必ずしも正確ではなくて誤差が含まれてしまっています。このような状況で「相関関係があるのかどうか、また、あるとしたら実際にf(x, y)はどうなるのか」を推定するには、どうしたらよいのでしょうか?
相関関係の内、最もシンプルで基本的な関係は線形関係:\[y = a x + b\]です。今回は線形関係に絞って解説します。
まずはサンプルをx軸、y軸上にプロットしてみましょう。相関関係がない(無相関)の場合には下の図1のようになるはずであり、誤差が無視できるような綺麗な線形関係の場合には図2や図3のようになるはずです。このような「見える化」を行えば、相関の有無が視覚的に分かることになります。

ここで用心深い人なら「ちょっと待てよ」と疑問が浮かぶかもしれません。「グラフの描き方に任意性はないのか」と。確かにグラフの描き方には、原点の取り方、並びに縦軸と横軸のスケールの取り方という任意性があります。実際に図4は図1と同じサンプルデータですが、グラフの描き方が違うため、与える印象も変わってくるかもしれません。そこで、通常はグラフの描き方を以下のルールで統一します。
- 原点は、それぞれサンプルの平均が0になるように選ぶ。
- 縦軸と横軸のスケールは、それぞれサンプルの標準偏差を単位とする。
上記のルールで任意の領域の線形関係の直線をプロットすると、傾き+1の直線(a > 0の時、図2参照)か、傾き-1の直線(a < 0の時、図3参照)になり、表示されたグラフはaの符号のみに依っていて、aやbの値には依らなくなります(a = 0の時はそもそも無関係)。サンプルデータが傾き+1の直線に近い時を正の(線形)相関があると言い、傾き-1の直線に近い時を負の(線形)相関があると言います。
このように視覚的に確認するのは有効なやり方ですが、数値化することも大切です。完全に正の相関がある時には+1となり、完全に負の相関がある時には-1となり、無相関の時には0となって、そうでない時には、それらの間の値を取るような指標があると便利になります。
その代表的なものがピアソンの相関係数(積率相関係数や線形相関係数とも言う):\[r = \frac{S_{uv}}{\sqrt{S_{uu} S_{vv}}}\]です。ここで、\[S_{uv} = \sum_{i = 1}^{n} \frac{u_{i} v_{i}}{n},~~ S_{uu} = \sum_{i = 1}^{n} \frac{u_{i}^{2}}{n},~~ S_{vv} = \sum_{i = 1}^{n} \frac{v_{i}^{2}}{n}\]と\[u_{i} = x_{i} - \bar{x},~~ v_{i} = y_{i} - \bar{y}\]を導入しました。\[\bar{x},~~ \bar{y}\]は、それぞれxとyの平均です。単に相関係数という場合には、通常はこれのことを意味しています。この式は、平均が0になるようにシフトしたxとyのサンプルデータをそれぞれベクトルだと考えた時に、その単位ベクトルの内積になっています。単位ベクトルの内積なので、必ず-1から+1の範囲の値をとります。完全な線形相関の場合には、ベクトルが線形従属になりますので、その単位ベクトルの内積は+1か-1です。無相関の乱数の時に0に近くなるのも明らかでしょう。
ピアソンの相関係数の絶対値が1に近い時には線形相関があることが確認できます。また、絶対値が小さい時には、線形相関があるかが確認できないので、相関係数自体の意味が乏しくなり、次の記事で解説する線形回帰の結果も怪しくなってきます。実際に、次の記事で示す通り、相関係数は線形回帰の当てはまりの良さを示す量(残差の二乗和)と関係しています。
相関係数には他にも様々なものがあり、大きさではなく順位のみを見る(ノンパラメトリックと言う)スピアマンの相関係数やケンドールの相関係数などが有名です。一般的にノンパラメトリックな方法は、データの誤差に対して頑強(ロバスト)である一方で、信頼できる結果を得るにはサンプル数をより多く必要とするという特徴があります。
さて、上述の通り、ピアソンの相関係数は線形相関が確認できない場合には、あまり意味のない量なのですが、現実には絶対値がかなり小さいのにもかかわらず用いられていることがあります。実際にどれくらい絶対値が大きければ、相関があると考えることができるのでしょうか?
仮にxとyが完全に無相関であり、ある範囲から無作為に選ばれると仮定すると(帰無仮説)、その時の相関係数の絶対値が実際の相関係数rの絶対値よりも大きくなる確率Pは、nが十分に大きければ、\[P = erfc{( \frac{|r| \sqrt{n}}{\sqrt{2}} )}\]と近似できます。ここで、\[erfc(x) = 1 - erf(x)\]は誤差関数erf(x)の補関数です。つまり、仮に無相関であったとしても、Pの確率で偶然、|r|以上の値が出てきてしまうということなので、Pが十分に小さくないと相関があるとは言えません。この時、十分に小さいという判定基準を有意水準と呼び、例えば、5%や1%等が使われます。具体的に5%の場合には、おおよそ\[|r| > \frac{2}{\sqrt{n}} \]の時に相関があると考えることができます。この他にも相関係数の値から相関の有無を検定する方法はありますが、ここで紹介した以外の手法はxとyの分布が正規分布であるという特殊な仮定に基づいたものであることが多いので注意してください。
前段落の論法は統計学で常習的に用いられ、「5%の有意水準で帰無仮説が棄却され、相関は統計学的に有意である」等と言います。ここで注意してほしいのは、「統計学的に有意でない」=「このサンプルデータからは相関があるかどうかは分からない」ということであって、必ずしも「相関がない」ということを意味しているわけではないということです。推理小説風に例えると、「この調査結果からはAが犯人かどうかは分からない」という事は「Aは犯人ではない」という事とは一致しないということになります。ここのところは非常に混同しやすく、研究者でも勘違いをしやすいものです(経済学者が混同してしまっている例は、例えば、ディアドラ・N・マクロスキー「ノーベル賞経済学者の大罪」に記されています)。また、統計学的有意性とサンプルデータの正確性は関係ありませんし、統計学的有意性とその相関の科学的な重要性が関係ないことも言うまでもありません。
最後に、相関の話をする際にお約束となっている相関関係と因果関係の違いについても記しておきます。相関関係「xとyが関係している」と因果関係「xがyの原因である」が違うというのは当たり前のことなのですが、もう一歩踏み込んで書くと、そもそも科学においては因果関係を証明するという事は非常に大変なことなのです。相関関係というのはデータを集めて統計処理すれば出てくるもので、言わばただの観測事実に過ぎません。一方で、因果関係というのは最終的にメカニズムを解明しないと分からないものであり、科学研究の立場からすると、相関関係とは全くレベルの異なる課題ということになります。その両者を混同してしまうというのは「因果関係は簡単に分かるはず」という人間の思い込みに由来しているのではないかと思われます(この因果関係も証明は困難ですが)。
以上、ピアソンの相関係数を計算することにより、線形相関の有無を確認できることが分かりました。それでは線形相関が見られる時に具体的に\[y = a x + b\]のaとbはどのように推定したらいいのでしょうか? それを次の記事で解説します。
コメント