Hướng dẫn cơ bản về tệp CSV trong R

Xin chào các bạn tương lai của lập trình R! Hôm nay, chúng ta sẽ bắt đầu một hành trình thú vị vào thế giới của các tệp CSV trong R. Đừng lo lắng nếu bạn chưa từng viết một dòng mã trước đây - tôi sẽ là người hướng dẫn thân thiện của bạn trong suốt mỗi bước. Cuối cùng của bài hướng dẫn này, bạn sẽ xử lý các tệp CSV như một chuyên gia!

R - CSV Files

Tệp CSV là gì?

Trước khi chúng ta bắt đầu, hãy bắt đầu từ những điều cơ bản. CSV viết tắt của "Comma-Separated Values". Đó là một định dạng tệp đơn giản được sử dụng để lưu trữ dữ liệu bảng, như bảng tính hoặc cơ sở dữ liệu. Mỗi dòng trong tệp CSV đại diện cho một hàng dữ liệu, và mỗi trường được phân tách bởi một dấu phẩy. Đơn giản phải không?

Lấy và đặt thư mục làm việc

Khi làm việc với các tệp trong R, việc hiểu R đang tìm kiếm các tệp ở đâu là rất quan trọng. Vị trí này được gọi là "thư mục làm việc".

Kiểm tra thư mục làm việc hiện tại

Để tìm hiểu thư mục làm việc hiện tại của bạn, hãy sử dụng lệnh này:

getwd()

Khi bạn chạy lệnh này, R sẽ cho bạn biết đường dẫn hiện tại nó đang sử dụng. Ví dụ, nó có thể trả về điều gì đó như:

[1] "C:/Users/YourName/Documents"

Đặt một thư mục làm việc mới

Nếu bạn muốn thay đổi thư mục làm việc của mình, hãy sử dụng hàm setwd():

setwd("C:/Path/To/Your/Desired/Directory")

Nhớ sử dụng dấu gạch ngang (/) hoặc dấu gạch ngang kép (\) trong đường dẫn của bạn, ngay cả trên Windows!

Nhập từ tệp CSV

Bây giờ chúng ta đã biết R đang tìm kiếm các tệp ở đâu, hãy nói về việc lấy dữ liệu vào R từ một tệp CSV.

Đọc một tệp CSV

R làm cho việc đọc các tệp CSV rất dễ dàng với hàm read.csv(). Dưới đây là cách bạn sử dụng nó:

data <- read.csv("your_file.csv")

Lệnh này đọc tệp CSV có tên "your_file.csv" và lưu trữ nó trong một biến叫做 data.

Giả sử chúng ta có một tệp CSV gọi là "students.csv" với thông tin về học sinh. Đây là cách chúng ta sẽ đọc nó:

students <- read.csv("students.csv")

Sau khi chạy lệnh này, students sẽ là một khung dữ liệu chứa tất cả thông tin từ tệp CSV.

Xem dữ liệu

Để ngắm nhìn dữ liệu mới nhập của bạn, bạn có thể sử dụng các hàm tiện ích này:

head(students)  # Hiển thị 6 hàng đầu tiên
str(students)   # Hiển thị cấu trúc dữ liệu
summary(students)  # Cung cấp tóm tắt của mỗi cột

Phân tích tệp CSV

Bây giờ chúng ta đã có dữ liệu trong R, hãy làm một số phân tích cơ bản!

Truy cập các cột

Bạn có thể truy cập các cột riêng lẻ bằng cách sử dụng ký hiệu $:

students$age  # Trả về tất cả các giá trị trong cột 'age'

Thống kê cơ bản

R có nhiều hàm内置 cho phân tích thống kê:

mean(students$age)    # Tính trung bình của cột 'age'
median(students$age)  # Tìm trung vị của cột 'age'
max(students$age)     # Tìm giá trị lớn nhất trong cột 'age'
min(students$age)     # Tìm giá trị nhỏ nhất trong cột 'age'

Lọc dữ liệu

Bạn cũng có thể lọc dữ liệu dựa trên các điều kiện:

honor_students <- students[students$gpa > 3.5, ]

Lệnh này tạo ra một khung dữ liệu mới honor_students chứa chỉ các học sinh có GPA cao hơn 3.5.

Ghi vào tệp CSV

Cũng như chúng ta có thể đọc từ các tệp CSV, chúng ta cũng có thể ghi vào chúng. Điều này rất hữu ích khi bạn đã manipulates dữ liệu và muốn lưu kết quả.

Để ghi một khung dữ liệu vào một tệp CSV, hãy sử dụng hàm write.csv():

write.csv(honor_students, "honor_students.csv")

Lệnh này sẽ tạo ra một tệp mới叫做 "honor_students.csv" trong thư mục làm việc của bạn, chứa dữ liệu từ khung dữ liệu honor_students.

Các tùy chọn quan trọng cho write.csv()

Dưới đây là một số tùy chọn hữu ích bạn có thể sử dụng với write.csv():

Tùy chọn Mô tả
row.names = FALSE Loại trừ tên hàng từ đầu ra
quote = FALSE Ngăn chặn việc trích dẫn các chuỗi
na = "NA" Chỉ định cách đại diện cho các giá trị thiếu

Ví dụ:

write.csv(honor_students, "honor_students.csv", row.names = FALSE)

Lệnh này sẽ ghi tệp CSV không bao gồm tên hàng.

Kết luận

Chúc mừng! Bạn vừa học được các kỹ thuật cơ bản về việc làm việc với các tệp CSV trong R. Từ việc đọc tệp đến phân tích dữ liệu và ghi mới tệp, bạn现在已经 có nền tảng để bắt đầu hành trình phân tích dữ liệu của mình.

Nhớ rằng, thực hành làm cho hoàn hảo. Hãy thử làm việc với các tệp CSV khác nhau, thử nghiệm các hàm khác nhau và đừng sợ mắc lỗi - đó là cách chúng ta học hỏi!

Chúc các bạn lập trình vui vẻ và dữ liệu của các bạn luôn sạch sẽ và phân tích sâu sắc!

Credits: Image by storyset