R - CSVファイル:入門ガイド
こんにちは、将来のRプログラマーさんたち!今日は、RにおけるCSVファイルの世界に楽しい旅をすることになります。これまでに一行のコードも書いたことがない方でも心配しないでください。私はあなたの親切なガイドとして、ステップバイステップでサポートします。このチュートリアルの終わりまでに、あなたはプロのようにCSVファイルを扱えるようになるでしょう!
CSVファイルとは?
まずは基本から始めましょう。CSVは「Comma-Separated Values」の略で、表形式データを保存するためのシンプルなファイルフォーマットです。スプレッドシートやデータベースに似ています。CSVファイルの各行はデータの行を表し、各フィールドはカンマで区切られています。シンプルですね?
ワークディレクトリの取得と設定
Rでファイルを扱う際には、Rがどの位置を探しているかを理解することが重要です。この場所は「ワークディレクトリ」と呼ばれます。
現在のワークディレクトリを確認する
現在のワークディレクトリを確認するには以下のコマンドを使用します:
getwd()
このコマンドを実行すると、Rが使用している現在のパスが表示されます。例えば、以下のようなものが返ってくるかもしれません:
[1] "C:/Users/YourName/Documents"
新しいワークディレクトリを設定する
ワークディレクトリを変更したい場合は、setwd()
関数を使用します:
setwd("C:/Path/To/Your/Desired/Directory")
パスにはフォワードスラッシュ(/)またはダブルバックスラッシュ(\)を使用してください。Windowsでも同様です!
CSVファイルからの入力
ワークディレクトリがわかったところで、CSVファイルからデータをRに取り込む話に移りましょう。
CSVファイルの読み込み
Rではread.csv()
関数を使うことで、CSVファイルを読み込むことが非常に簡単です。以下のように使用します:
data <- read.csv("your_file.csv")
このコマンドは「your_file.csv」という名前のCSVファイルを読み込み、data
という変数に保存します。
例えば、「students.csv」という名前のCSVファイルに学生の情報が記載されているとします。以下のように読み込むことができます:
students <- read.csv("students.csv")
このコマンドを実行すると、students
はCSVファイルの全ての情報を含むデータフレームになります。
データの確認
新たにインポートしたデータを確認するために、以下の便利な関数を使用できます:
head(students) # 先頭6行を表示
str(students) # データの構造を表示
summary(students) # 各列の摘要を提供
CSVファイルの分析
データがRに取り込まれたので、基本的な分析を行ってみましょう!
列のアクセス
個々の列にアクセスするには$
シンボルを使用します:
students$age # 'age'列の全ての値を返す
基本的な統計
Rには多くの統計分析のための内蔵関数があります:
mean(students$age) # 平均年齢を計算
median(students$age) # 中央値を求める
max(students$age) # 最大値を求める
min(students$age) # 最小値を求める
データのフィルタリング
条件に基づいてデータをフィルタリングすることもできます:
honor_students <- students[students$gpa > 3.5, ]
このコマンドは、GPAが3.5以上の学生のみを含む新しいデータフレームhonor_students
を作成します。
CSVファイルへの書き込み
CSVファイルから読み込むだけでなく、書き込むこともできます。データを操作して結果を保存したいときに便利です。
データフレームをCSVファイルに書き込むには、write.csv()
関数を使用します:
write.csv(honor_students, "honor_students.csv")
このコマンドは、honor_students
データフレームを現在のワークディレクトリに「honor_students.csv」という名前の新しいファイルに保存します。
write.csv()の重要なオプション
以下はwrite.csv()
で使用できる便利なオプションです:
オプション | 説明 |
---|---|
row.names = FALSE |
行名をoutputから除外 |
quote = FALSE |
文字列のクォートを防ぐ |
na = "NA" |
欠損値の表現を指定 |
例えば:
write.csv(honor_students, "honor_students.csv", row.names = FALSE)
このコマンドは、行名を含まないCSVファイルを保存します。
結論
おめでとうございます!RにおけるCSVファイルの基本的な操作を学びました。ファイルの読み込みからデータの分析、そして新しいファイルの作成まで、データ分析の基礎スキルを身につけました。
実践は完璧を生みます。さまざまなCSVファイルで練習し、さまざまな関数を試してみてください。間違ったとしても、それが学びです!
ハッピーコーディング、そしてデータが常にクリーンで、分析が鋭いことを願っています!
Credits: Image by storyset