データの整理

統計学で取り扱うデータの種類は大きく2つに分類されます。

離散データ
連続性のないデータ
個数や、回数など
連続データ
連続性のあるデータ
温度など

これらのデータを取り扱う上で、整理しわかりやすくするために表にまとめる必要があります。その方法として代表的なものが次の2つです。

度数分布表
データの内容を直感的に分かるように整理された表
ステムアンドリーフ
度数分布表よりもデータの詳しい情報が得られる表

すべてのデータの中で、最小のものをXmin、最大のものをXmaxとすると、

R = Xmax - Xmin

を範囲といい、それを参考にして、データを(一般的には)等間隔の境界で区切っていき、いくつかの階級に分けます。

(たとえば、1学年の体重のデータを1kgずつの階級に分けてはぜんぜん整理されているとはいえないですね。)

いくつの階級に分けるかは、次のスタージェスの公式が目安になります。

スタージェス(Sturges)の公式
k = 1 + log2n

n 個のデータ( x1,x2,x3,…,xn)を k 個の階級にわけ、そのそれぞれの境界を

a0 < a1 < a2 < … < ak

とすると、

階級値

ci = ( ai-1 + ai )/2 ( i = 1,2,3,…,k )

を階級値といいます。つまり、隣り合う2つの境界値の平均ですね。

このとき、ai-1 以上 ai 未満のデータの個数をその階級の度数といいます。

度数分布表の例です。

階級値
度数
45
2
55
12
65
15
75
8
85
7
95
1
45

ここで、階級値の小さいものからの度数の累計を累積度数といい、それを記載した表を累積度数分布表といいます。

階級値
度数
累積度数
45
2
2
55
12
14
65
15
29
75
8
37
85
7
44
95
1
45
45
 

次に、度数分布表よりはやや複雑になるが、それぞれのデータの値を詳しく知ることができるステムアンドリーフを解説します。

これは、たとえば、体重なら、1kg単位で、人数を出し、度数分布表にそのそれぞれの人数を付け加えるといったものです。

度数
累積度数
階級の下限
リーフ
2
2
40
0 0 0 0 0 1 0 1 0 0
12
14
50
1 2 0 4 1 0 2 0 1 1
15
29
60
2 0 3 2 4 0 0 2 1 1
8
37
70
3 0 1 1 0 0 1 0 1 0
7
44
80
1 2 0 0 0 2 0 1 1 0
1
45
90
0 0 0 0 0 0 1 0 0 0

つまり、赤い印をしたところは値が64のデータをあらわし、その個数が4個であるということです。

 

 データの整理