「散布図」「共分散」「相関係数」という言葉は、統計を学び始めたばかりの人にとっては、少し難しそうに感じるかもしれません。
でも、これらは私たちの日常に存在する「関係性」を数値でとらえるための大切な道具です。
この記事では、身近な例を使ってこれらの概念をわかりやすく解説していきます。統計が初めてでも、自信を持って読み進めていけるはずです!
散布図とは?
「散布図」について説明しましょう。
散布図は、2つの要素がどのように一緒に変化するかを示すものです。たとえば、「1日あたりの勉強時間」と「テストの点数」という2つのデータで考えてみましょう。
以下のようなクラスの6人の生徒のデータがあるとします:
生徒 | 勉強時間(時間/日) | テストの点数 |
---|---|---|
A | 1 | 45 |
B | 2 | 55 |
C | 3 | 60 |
D | 4 | 65 |
E | 5 | 80 |
F | 6 | 85 |
このデータをグラフ(下図)にすると、横軸が「勉強時間」、縦軸が「テストの点数」となります。

それぞれの生徒のデータを点として見ていくと、勉強時間が長いほどテストの点数が高くなる傾向が見えてきます。つまり、散布図は2つのデータの関係を視覚的に確認するためのグラフです。
散布図の見方:平均を基準にばらつきを見る視点
散布図は、2つの変数の関係を可視化するグラフですが、それを読む上で重要なのは
「x・y軸の平均を基準に考えること」
です。
以下のグラフは、先ほどの散布図に「平均勉強時間(緑の点線)」と「平均テスト点数(赤の点線)」を加えたものです。

赤色の点線がテストの平均点、緑色の点線が平均勉強時間です。これらの平均線は、それぞれの変数の「中心値」を示しています。この2本の線を基準に、各生徒のデータが平均からどれだけ離れているか、またその偏り方にどのようなパターンがあるかを視覚的に把握できます。
たとえば、右上に位置するFさんは、勉強時間も点数も平均よりかなり上です。この図から、勉強時間の増加とテストの点数の増加に相関(関係性)があると言えそうです。
共分散とは?
前述の「勉強時間とテスト」の例を使うと、
- ある人が平均よりも多く勉強して、かつテストの点数も平均より高ければ、2つの値は「同じ方向に変化している」と言えます。
- 逆に、勉強時間は平均より長いのに点数が低いと、「反対方向に変化している」と言えます。
前述の「勉強時間とテスト」の例を使って図で表現してみましょう。「平均からどれだけ離れているか」を示す方法として、平均からの距離を結んだ小さな長方形の面積として視覚化してみます。

上の図は:
- 紫の長方形:Fさんのデータは、勉強時間もテストの点数も平均より大きく、平均からの偏差はどちらも正の方向なので、「正×正=正の相関」を示しています。
- 赤の長方形:Aさんのデータは、両方が平均より小さい方向の偏差ですが、「負×負=正の相関」を示します。
一方、グラフ上にはありませんが、勉強時間が平均より多いのに点数が低い、あるいはその逆の場合、データは「反対方向に変化」しており、これは「負の相関」を意味します。
この長方形の面積の合計が共分散となります。
長方形の面積の和 = 共分散!
共分散の概念は、上図のように散布図にプロットされた各点の「長方形の面積の和」として表現できます。つまり、各データ点とX軸(勉強時間)とY軸(テスト点数)の平均からの偏差を取り、それを掛け算した値(=面積)の合計が「ばらつき面積」です。
そして、この「ばらつき面積」を観測数で割ったものが共分散となります。
共分散の式:
$$\text{Cov}(X,Y) = \frac{1}{n} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y})$$
共分散の符号が意味するもの
- 正の共分散:Xが平均より大きいときにYも大きく、またはXが小さいときにYも小さい。→ 右上と左下に点が集中。
- 負の共分散:Xが大きいときにYが小さい、またはその逆。→ 左上と右下に点が集中。
- 共分散が0に近い:全方向に均等に散らばっており、相関がほとんどない。
共分散の欠点と相関係数の登場
共分散には単位依存という欠点があります。
たとえば、身長と体重の関係を調べるとき、身長をcmで測るかmで測るかで、共分散の値が変わってしまいます。
この問題を解決するのが相関係数です。相関係数は、共分散を各変数の標準偏差で割って求めるため、単位の違いを打ち消してくれます。
ピアソンの相関係数の式:
$$r_{XY} = \frac{\text{Cov}(X,Y)}{\sigma_X \cdot \sigma_Y}$$
または、標準化された偏差の積を平均した形でも表されます:
$$r_{XY} = \frac{1}{n} \sum_{i=1}^n \left( \frac{x_i - \bar{x}}{\sigma_X} \cdot \frac{y_i - \bar{y}}{\sigma_Y} \right)$$
- \(r_{XY}\): XとYの相関係数
- \(\mathrm{Cov}(X, Y)\): XとYの共分散
- \(\sigma_X, \sigma_Y\): XとYの標準偏差
- \(x_i, y_i\): XとYのi番目のデータ点
- \(\bar{x}, \bar{y}\): XとYのi番目のデータ点: XとYの平均
- \(n\): データ点数
相関係数は、単位に依存しない方法で、XとYの間の線形関係の強さと方向を表します。
相関係数は-1から+1までのスコアで表され、2つの物事がどの程度密接に、つまり完全に歩調を合わせているか、反対方向に踊っているか、あるいはまったく踊っていないかを示していると考えてください。に近いほど「強い正の関係」、-1に近いほど「強い負の関係」、0に近いほど「ほとんど関係がない」ことを示す。

例えば、相関係数が+0.99であれば、勉強時間が長いほどテストの点数が上がるなど、関係が非常に強いことを意味する。
一方、-0.98であれば、勉強時間が長いほどテストの点数が下がるなど、逆の関係が強いことを意味する。
相関係数は直線的な関係しか捉えられない
相関係数は、XとYがどれくらい「同じ方向に動いているか」を測る指標ですが、直線的な関係しか捉えられません。

例えば、XとYの関係が放物線のように曲線的である場合、つまりXが増加するとYが一旦上昇し、再び下降する場合、相関係数はその関係をうまく表すことができません。
なぜなら相関係数は、XとYの偏差の正規化積に基づいており、XとYがどれだけ一貫して同じ方向に動くかを反映しているからです。(つまりXとYの関係は最初から最後まで直線的であると仮定されいる)
したがって、XとYの間に明確な関係があったとしても、それが曲線的であれば、相関係数はほとんど何も捉えず、「関係なし」と判断される可能性があります。
非線形の関係を調べたい場合は、相関係数だけに頼るのではなく、このようなときは、散布図そのものをよく観察することが重要です。
相関は「因果関係」ではない
強い相関関係があるからといって、因果関係があるとは限らない!
例えば、夏の暑い日には、アイスクリームの売り上げも電力使用量も増える傾向にあります。
一見すると、アイスクリームをたくさん食べると電気使用量が増えるように見えるかもしれませんが、実際には、どちらも気温が高いという同じ理由で増加していることに気づくでしょう。
このように、「相関係数が高くても、その背後には別の要因があるかもしれない」ということを常に忘れないようにしてください。
では、見かけの相関関係に惑わされることなく、2つの変数の間の真の関係を見つけたい場合は、偏相関係数を用いて第3の変数の影響を取り除き、本当の関係をより明確に見ることができます。
偏相関係数
前述したアイスクリームの売り上げと電気の使用量の例のように、第三の要因を取り除いてXとYの本当の関係を見たい場合に使うのが「偏相関係数」です。
偏相関係数の式とその意味
偏相関係数の式:
$$r_{XY \cdot Z} = \frac{r_{XY} - r_{XZ} \cdot r_{YZ}}{\sqrt{(1 - r_{XZ}^2)(1 - r_{YZ}^2)}}$$
それぞれの記号の意味:
- \(r_{XY \cdot Z}\):Zの影響を取り除いたXとYの偏相関係数
- \(r_{XY}\):XとYの通常の相関係数
- \(r_{XZ}\), \(r_{YZ}\):XとZ、YとZの相関係数
この式は、「Zに関する影響を差し引いて、XとYの純粋な関係を見よう」という考え方です。
以下の図は、「アイスクリーム売上」「電気使用量」「気温」の関係を可視化したものです。

- 左のグラフ:見かけ上の関係(r ≈ 0.71)
- 右のグラフ:気温の影響を取り除いた後の関係(r ≈ -0.05)
→ 本当は、アイスと電気の間に強い関係はなかったことが分かります。
まとめ

散布図、共分散、相関係数、偏相関係数は、データ間の「関係性」を読み取る上で非常に重要な統計的概念です。
これらを理解し使いこなすことで、データの裏にある「つながり」や「隠れた要因」に気づけるようになります。
身近なデータ、たとえば睡眠時間や歩数などで散布図を描いてみたり、相関係数を計算してみたりして、「関係性の探検」に挑戦してみませんか?
もしかすると、思いもよらぬパターンが見えてくるかもしれません!
コメント