PR

ヒストグラムを把握する5ポイントとRでの簡単な作成方法

基本統計学
記事内に広告が含まれています。

ヒストグラムとは度数分布表のデータ(x軸は階級、y軸は度数)を基に作成されるグラフです。
※度数分布表の作り方については以下を参照して下さい。

ヒストグラムから得られる5つの情報

1. データのピークがいくつあるのか:単峰性?多峰性?

ヒストグラムの形

2. データは左右対称であるのか?もしくは、右(左)に歪んでいるのか?

3. ピークは鋭いのか?緩やかなのか?:データのバラつき度合いのチェック

4. 中心(平均値・中央値・最頻値)の位置を推測

5. 外れ値の有無

Rでヒストグラムを作成

Rでのヒストグラム作成は簡単で、hist()関数を使います。

今回はMASSパッケージのCars93のデータを使用したいので、libraryでMASSを起動します。
その後、Price.histでヒストグラムを作成

library(MASS)
Price.hist <- hist(Cars93$Price, right = FALSE)

これでヒストグラムは作成できたのですが、x軸の目盛りが中途半端で、x軸とタイトルがなんとも言えないので、少し手を加えましょう。hist()の引数として、

  • xlim: x軸の目盛り調節
  • xlab: x軸のタイトル追加
  • main: グラフのタイトル追加

を使います。今回は

  • x軸は0~70に拡大
  • x軸は”Price”
  • タイトルは”Price of Car in 1993”

と変更します。

Price.hist <- hist(Cars93$Price, right = F, xlim = c(0, 70), xlab = "Price",
     main = "Price of Car in 1993")

ちなみに、このグラフから得られる情報として

  1. データのピークは1つなので単峰性
  2. データは右に歪んでいる
  3. ピークは比較的鋭い形
  4. 最頻値は15~20、中央値はそれよりやや右側、平均値はさらに右側の辺りに位置することは推測できる
  5. 外れ値が60~65にあるのが確認できる

まとめ

以上でヒストグラムから得られる5つの情報とRでヒストグラムを作成する方法です。ヒストグラムを眺めているだけでもデータの色々な情報が得られます。
ヒストグラムはRで簡単に作成できますので、データを集めたら、サクサクっと作成して見て下さいね。

コメント