代表値のページでデータを一つの値であらわしてきました。しかし、この代表値だけでは、各データがそれぞれどのような散らばりを示しているのか分かりません。ばらつきを捉えるために、平均値から各データの値がどれくらい離れているかを考えればよいわけですが、単純に、
( xi - x~ )
では、正負の値が混在し、結局、
Σ( xi - x~ ) = 0
なので使い物になりません。そこで
( xi - x~ )2
を考えます。ここで、
Σ( xi - x~ )2
を偏差平方和とよびます。
偏差平方和の値は、
・ 各データの値と平均との差(ばらつき)が大きいとき
・ データ数が多いとき
に大きくなります。そこで偏差平方和をデータ数で割れば”各データと平均との差”の平均が得られます。
これらの値はデータのばらつきが大きいほど大きくなります。
標本分散は次のように変形することができ、計算する上で非常に便利です。
sx2 = 1/n・Σ( xi - x~ )2
= 1/n・Σ( xi2 - 2xix~ + x~2 )
= 1/n・Σxi2 - 2x~Σxi/n + 1/n・Σx~2
= 1/n・Σxi2 - 2x~・x~ + 1/n・nx~2
= 1/n・Σxi2 - 2x~2 + x~2
= 1/n・Σxi2 - x~2
(1/n・Σ| xi - x~ |は平均偏差と呼ばれています。)
標本分散、不偏分散の単位はデータの単位と異なるため、それをあわせるために次のような指標があります。
これを利用して、各データが全体の中でどの程度かを知るために偏差値があります。
(偏差値) = 10×( xi - x~ )/ux + 50
標本平均に対応して、データのばらつきを知る指標として、標本分散が出てきました。では、中央値(メジアン)に対応するものを考えます。データ全体の中で、
小さい方から1/4の値: Q1、第1四分位、25パーセンタイル値
小さい方から2/4の値: Q2、第2四分位、50パーセンタイル値
小さい方から3/4の値: Q3、第3四分位、75パーセンタイル値
とそれぞれ呼び、
Q = (Q3 - Q1)/2
を四分位偏差といいます。これが、中央値に対応するばらつきの指標です。