R - ヒストグラム:初めての人向けガイド

こんにちは、データ魔術師志願者さんたち!今日は、Rを使ってヒストグラムの世界に足を踏み入れる興奮人心的な旅に出かけます。コードを書いたことがない方も心配しないでください-私はあなたの親切なガイドとして、ステップバイステップで進めていきます。このチュートリアルの終わりまでに、プロのように美しいヒストグラムを作成できるようになるでしょう!

R - Histograms

ヒストグラムとは?

Rに飛び込む前に、ヒストグラムとは何かを理解しましょう。あなたが教師(私のように!)で、生徒たちの試験結果を見たいとします。ヒストグラムは、データの分布を示す棒グラフのようなものです。データを「バイン」や範囲に分け、それぞれのバインにどれだけのデータポイントが含まれているかを示します。

Rを始める

まず第一に、Rを起動しましょう!Rをまだインストールしていない場合は、Rプロジェクトのウェブサイトにアクセスして、お使いのオペレーティングシステムに合わせたインストール手順に従ってください。

Rをインストールし、起動すると、コマンドを入力できるコンソールが表示されます。ここで魔法が起きます!

最初のヒストグラムを作成する

簡単な例から始めましょう。試験得点のヒストグラムを作成します。

# 試験得点のベクタを作成
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)

# ヒストグラムを作成
hist(scores)

このコードを実行すると、基本的なヒストグラムが表示されます。すごいですね!これを分解すると以下のようになります:

  1. scoresという名前のベクタに試験得点を入力します。
  2. hist()関数を使ってこれらの得点のヒストグラムを作成します。

Rは自動的にバインの数と各バインの範囲を決定しますが、もっとヒストグラムを制御したい場合はどうしたらいいでしょうか?ここでRの魔法が光ります!

ヒストグラムをカスタマイズする

バインの数を指定する

Rにバインの数を正確に伝えることができます:

hist(scores, breaks = 5)

これで、5つのバインを持つヒストグラムが作成されます。違う数を試してみて、ヒストグラムの外観がどのように変わるかを確認してください!

タイトルとラベルを追加する

ヒストグラムをより情報豊富にしましょう:

hist(scores,
main = "試験得点の分布",
xlab = "得点",
ylab = "頻度",
col = "skyblue",
border = "darkblue")

各新しいパラメータの役割は以下の通りです:

  • main:ヒストグラムにタイトルを追加
  • xlabylab:x軸とy軸にラベルを追加
  • col:バーの色を設定
  • border:バーの境界の色を設定

x軸とy軸の範囲を調整する

時々、特定の範囲に焦点を当てたい場合や、ヒストグラムのスケールを調整したい場合があります。以下にその方法を示します:

hist(scores,
xlim = c(60, 100),  # x軸の範囲を設定
ylim = c(0, 5),     # y軸の範囲を設定
breaks = seq(60, 100, by = 5))  # 60から100まで、5ずつ増えるバインを作成

このコードは、x軸を60から100に設定し、y軸を0から5に設定し、5ずつ増えるバインを作成します。

高度なヒストグラム技術

基本的なことを掌握したので、もっと高度な技術を見てみましょう!

密度曲線を追加する

密度曲線はデータの分布を視覚化するのに役立ちます:

hist(scores,
probability = TRUE,  # 頻度ではなく密度を表示
main = "試験得点の分布と密度曲線")

# 密度曲線を追加
lines(density(scores), col = "red", lwd = 2)

このコードはまず密度を示すヒストグラムを作成し、その上に平滑な密度曲線を追加します。

複数のヒストグラムを作成する

分布を比較したい場合はどうでしょうか?2つのクラスのヒストグラムを並べてみましょう:

par(mfrow = c(1, 2))  # プロットの1x2グリッドを設定

# クラスAの得点
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "クラスAの得点", col = "lightblue")

# クラスBの得点
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "クラスBの得点", col = "lightgreen")

このコードは2つのヒストグラムを並べて、分布を簡単に比較できるようにします。

有用なヒストグラム関数

以下は、私たちが使用した関数と、おそらく役立ついくつかの追加関数のリストです:

関数 説明
hist() 基本的なヒストグラムを作成
breaks バインの数またはバインの境界を指定
main ヒストグラムのメインタイトルを設定
xlabylab x軸とy軸にラベルを設定
col ヒストグラムバーの色を設定
border バー境界の色を設定
xlimylim x軸とy軸の範囲を設定
density() カーネル密度推定を計算
lines() 既存のプロットに線を追加
par() グラフィカルパラメータを設定または照会

結論

おめでとうございます!あなたはRのヒストグラムを使ったデータ可視化の第一歩を踏み出しました。効果的な可視化を作成することは、芸術と科学の両方の要素を持っています。違うパラメータを試してみて、ヒストグラムがどのように変わるかを確認しながら、実験を続けてください。

Rの旅を続ける中で、ヒストグラムは氷山の一角に過ぎません。しかし、ここで学んだスキルは、より高度なトピックを探求する上で役立つでしょう。

続けて練習し、好奇心を持ち続け、そしてハッピーコーディングを!間もなく、あなたが他の人にRとデータ可視化の素晴らしさを教える番になるでしょう。

Credits: Image by storyset