いろいろな相関図の例を見ていきましょう。
この図に表されている2変量は強い正の相関を示しています。このとき、すべての点がある直線上にあるとき、相関係数は1になります。
この図に表されている2変量は強い負の相関を示しています。このとき、すべての点がある直線上にあるとき、相関係数は -1 になります。
この図にあらわされる2変量の相関は見られません。
このように2変量に強い相関関係がみられるとき、それをよくあらわす直線が存在します。その直線について考えていきましょう。
<回帰直線>
下の図に示す2変量は強い相関が見られます。
これらの点は、ある直線(回帰直線)で近似的にあらわされます。この直線の方程式が分かれば他のデータに関しても推測することが可能となるわけです。では、どのように回帰直線の方程式を出せばいいのでしょうか?回帰直線をあらわす関数を y = f(x) とします。このとき、関数 y = f(x) と平面上にプロットされた点Pi( xi,yi ) の関係は下の図のようになります。
ここで点Piのy軸方向の距離は赤い線分で示されます。この長さは
| yi - f(xi) |
となり、絶対値記号が付いているので、その2乗{ yi - f(xi) }2 を考えます。
各点におけるこの値の和が、最小となる f(x) を定めるわけですね。この方法を最小2乗法(Least square method)と呼ばれています。
ここで、回帰直線の方程式を
y = a ( x - x~) + b ( = f(x) )
とおきます。x~はxの平均です。このとき、
L = Σ{ yi - a( xi - x~) - b }2
が最小となるa,bを求めていきます。これは、dL/da=0 と dL/db=0 の連立方程式を解けばいいわけです。
dL/da = -2Σ( xi - x~){ yi - a( xi - x~) - b } = 0 …(1)
dL/db = -2Σ{ yi - a( xi - x~) - b } = 0 …(2)
(2)⇔Σ{ yi - a( xi - x~) - b } = 0
⇔Σyi - aΣ( xi - x~) - Σb = 0 (ここで両辺をnで割る。)
⇔ Σyi/n - aΣ( xi - x~)/n - 1/n・Σb = 0
⇔ y~ - aΣxi/n + ax~ - b = 0
⇔ y~ - ax~ + ax~ - b = 0
⇔ b = y~
これを(1)に代入。
(1)⇔Σ( xi - x~){ yi - a( xi - x~) - y~ } = 0
⇔ Σ( xi - x~){ ( yi - y~ ) - a( xi - x~) } = 0
⇔ Σ( xi - x~)( yi - y~ ) - aΣ( xi - x~)2 = 0
⇔ a = Σ( xi - x~)( yi - y~ )/Σ( xi - x~)2
⇔ a = ( x と y の共分散)/( x の分散)2
以上より回帰直線の方程式は
y = Sxy/Sx2・( x - x~) + y~
となります。
回帰直線
|
y = Sxy/Sx2・( x - x~) + y~ |
<なぜ回帰直線か?>
回帰直線の名前の由来についてですが、普通に考えるとこのような名前を付けるのは些か不可解なように思います。これには、わけがあって、生物学者であり統計学者でもある(他に医学、心理学、人類学、社会学、教育学)ゴルトンFrancis Galton (1822-1911)によって付けられたものです。
彼は、身長の高い男達を集めてきて統計的に分析し、彼らの息子達の身長も同様に分析しました。すると、父親の代に比べて、息子達の身長の方が、より平均身長に近づいて行くことを発見しました。つまり平均と随分異なっていても、遺伝の結果、平均に戻っていく(回帰していく)ことを発見したわけです。