R - CSV 檔案:初學者指南

你好,未來的 R 程式設計師!今天,我們將踏上一段令人興奮的旅程,進入 R 語言中的 CSV 檔案世界。別擔心如果你之前從未寫過一行程式碼 - 我將成為你一路上親切的導遊。在這個教學結束時,你將能夠像專業人士一樣處理 CSV 檔案!

R - CSV Files

CSV 檔案是什麼?

在我們深入之前,讓我們從基礎開始。CSV 代表「逗號分隔值」。它是一種簡單的檔案格式,用於存儲表格數據,如試算表或數據庫。CSV 檔案中的每一行代表數據的一行,每個字段都由逗號分隔。簡單吧?

獲取和設定工作目錄

當在 R 中處理檔案時,理解 R 尋找這些檔案的位置是至關重要的。這個位置被稱為「工作目錄」。

檢查當前工作目錄

要找出你當前的工作目錄,使用以下命令:

getwd()

當你運行這個命令時,R 將告訴你它正在使用的當前路徑。例如,它可能會返回類似以下內容:

[1] "C:/Users/YourName/Documents"

設定新的工作目錄

如果你想更改你的工作目錄,使用 setwd() 函數:

setwd("C:/Path/To/Your/Desired/Directory")

記住在你的路徑中使用前向斜杠 (/) 或雙向後斜杠 (\),即使在 Windows 上也是如此!

從 CSV 檔案輸入

現在我們知道 R 尋找檔案的位置,讓我們來討論如何從 CSV 檔案將數據引入 R。

讀取 CSV 檔案

R 使用 read.csv() 函數讓讀取 CSV 檔案變得非常簡單。以下是如何使用它:

data <- read.csv("your_file.csv")

這個命令讀取名為 "your_file.csv" 的 CSV 檔案,並將其存儲在名為 data 的變量中。

假設我們有一個名為 "students.csv" 的 CSV 檔案,其中包含學生的信息。以下是如何讀取它:

students <- read.csv("students.csv")

運行這個命令後,students 將是一個包含 CSV 檔案中所有信息的數據框。

查看數據

要窺視你新導入的數據,你可以使用以下便捷函數:

head(students)  # 顯示前 6 行
str(students)   # 顯示數據的結構
summary(students)  # 提供每個列的摘要

分析 CSV 檔案

現在我們已經將數據放入 R,讓我們來做一些基本分析!

訪問列

你可以使用 $ 符號訪問單個列:

students$age  # 返回 'age' 列中的所有值

基本統計

R 有許多內置的統計分析函數:

mean(students$age)    # 計算平均年齡
median(students$age)  # 找到中位年齡
max(students$age)     # 找到最大年齡
min(students$age)     # 找到最小年齡

篩選數據

你也可以基於條件篩選你的數據:

honor_students <- students[students$gpa > 3.5, ]

這會創建一個新的數據框 honor_students,只包含 GPA 高於 3.5 的學生。

寫入 CSV 檔案

正如我們可以從 CSV 檔案讀取一樣,我們也可以寫入它們。這在你操作過數據並想保存結果時非常有用。

將數據框寫入 CSV 檔案,使用 write.csv() 函數:

write.csv(honor_students, "honor_students.csv")

這個命令將在你的工作目錄中創建一個名為 "honor_students.csv" 的新檔案,包含 honor_students 數據框的數據。

write.csv() 的重要選項

以下是一些你可以與 write.csv() 一起使用的有用選項:

選項 描述
row.names = FALSE 排除輸出中的行名
quote = FALSE 防止引用字符串
na = "NA" 指定如何表示缺失值

例如:

write.csv(honor_students, "honor_students.csv", row.names = FALSE)

這將創建一個不包含行名的 CSV 檔案。

結論

恭喜你!你剛剛學會了在 R 中處理 CSV 檔案的基本知識。從讀取檔案到分析數據,再到寫入新檔案,你現在已經具備了開始數據分析旅程的基本技能。

記住,熟能生巧。嘗試使用不同的 CSV 檔案,嘗試各種函數,並不要害怕犯錯誤 - 我們就是這樣學習的!

快樂編程,願你的數據總是乾淨,分析總是深刻!

Credits: Image by storyset