ヒストグラムとは度数分布表のデータ(x軸は階級、y軸は度数)を基に作成されるグラフです。
※度数分布表の作り方については以下を参照して下さい。
ヒストグラムから得られる5つの情報
1. データのピークがいくつあるのか:単峰性?多峰性?

2. データは左右対称であるのか?もしくは、右(左)に歪んでいるのか?

3. ピークは鋭いのか?緩やかなのか?:データのバラつき度合いのチェック

4. 中心(平均値・中央値・最頻値)の位置を推測
5. 外れ値の有無
Rでヒストグラムを作成
Rでのヒストグラム作成は簡単で、hist()関数を使います。
今回はMASSパッケージのCars93のデータを使用したいので、libraryでMASSを起動します。
その後、Price.histでヒストグラムを作成
library(MASS)
Price.hist <- hist(Cars93$Price, right = FALSE)

これでヒストグラムは作成できたのですが、x軸の目盛りが中途半端で、x軸とタイトルがなんとも言えないので、少し手を加えましょう。hist()の引数として、
- xlim: x軸の目盛り調節
- xlab: x軸のタイトル追加
- main: グラフのタイトル追加
を使います。今回は
- x軸は0~70に拡大
- x軸は”Price”
- タイトルは”Price of Car in 1993”
と変更します。
Price.hist <- hist(Cars93$Price, right = F, xlim = c(0, 70), xlab = "Price",
main = "Price of Car in 1993")

ちなみに、このグラフから得られる情報として
- データのピークは1つなので単峰性
- データは右に歪んでいる
- ピークは比較的鋭い形
- 最頻値は15~20、中央値はそれよりやや右側、平均値はさらに右側の辺りに位置することは推測できる
- 外れ値が60~65にあるのが確認できる
まとめ
以上でヒストグラムから得られる5つの情報とRでヒストグラムを作成する方法です。ヒストグラムを眺めているだけでもデータの色々な情報が得られます。
ヒストグラムはRで簡単に作成できますので、データを集めたら、サクサクっと作成して見て下さいね。
コメント