Hướng dẫn cơ bản về Data Frames trong R

Xin chào các bạn future R programmers! Hôm nay, chúng ta sẽ bắt đầu một hành trình thú vị vào thế giới của Data Frames trong R. Đừng lo lắng nếu bạn chưa bao giờ lập trình trước đây - tôi sẽ là người hướng dẫn thân thiện của bạn, và chúng ta sẽ cùng nhau từng bước. Cuối cùng của bài hướng dẫn này, bạn sẽ có khả năng manipulates data frames như một chuyên gia!

R - Data Frames

Data Frames là gì?

Trước khi chúng ta bắt đầu, hãy hiểu về data frames là gì. Hãy tưởng tượng bạn có một bảng tính với các hàng và cột - đó chính là data frame trong R. Nó là một bảng hai chiều mà mỗi cột có thể chứa các loại dữ liệu khác nhau (như số, văn bản, hoặc ngày tháng), và mỗi hàng đại diện cho một bản ghi cá nhân.

Bây giờ, hãy cúi xuống và bắt đầu với một số mã R thực tế!

Tạo Data Frame

Tạo một data frame giống như thiết lập cơ sở dữ liệu cá nhân của bạn. Hãy bắt đầu với một ví dụ đơn giản:

# Tạo một data frame
students <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(22, 25, 23),
grade = c("A", "B", "A-")
)

# Hãy xem data frame của chúng ta trông như thế nào
print(students)

Khi bạn chạy đoạn mã này, bạn sẽ thấy:

name age grade
1  Alice  22     A
2    Bob  25     B
3 Charlie 23    A-

Điều gì chúng ta đã làm ở đây? Chúng ta đã tạo một data frame名叫 students với ba cột: name, age, và grade. Mỗi cột là một vector, và tất cả các vector phải có cùng độ dài (trong trường hợp này là 3).

Kiểm tra cấu trúc của Data Frame

Bây giờ chúng ta đã có data frame của mình, hãy kiểm tra cấu trúc của nó. Điều này giống như nhìn vào bên trong của một chiếc xe:

# Kiểm tra cấu trúc của data frame
str(students)

Điều này sẽ xuất ra:

'data.frame':   3 obs. of  3 variables:
$ name : chr  "Alice" "Bob" "Charlie"
$ age  : num  22 25 23
$ grade: chr  "A" "B" "A-"

Điều này cho chúng ta biết rằng students là một data frame với 3 bản ghi (hàng) và 3 biến (cột). Nó cũng cho chúng ta thấy loại dữ liệu của mỗi cột: chr cho ký tự (văn bản) và num cho số học.

Tóm tắt dữ liệu trong Data Frame

Muốn có một cái nhìn nhanh về dữ liệu của bạn? Hàm summary() là người bạn tốt nhất của bạn:

# Lấy tóm tắt dữ liệu của data frame
summary(students)

Bạn sẽ thấy điều gì đó như:

name                age           grade
Length:3           Min.   :22.00   Length:3
Class :character   1st Qu.:22.50   Class :character
Mode  :character   Median :23.00   Mode  :character
Mean   :23.33
3rd Qu.:24.00
Max.   :25.00

Điều này cho chúng ta một tóm tắt thống kê về dữ liệu của chúng ta. Đối với các cột số học như 'age', nó cung cấp minimum, maximum, mean, và các quartiles. Đối với các cột ký tự, nó cho chúng ta biết độ dài và loại.

Trích xuất dữ liệu từ Data Frame

Bây giờ, hãy học cách trích xuất dữ liệu cụ thể từ data frame của chúng ta. Điều này giống như một thám tử dữ liệu!

# Lấy một cột cụ thể
print(students$name)

# Lấy một hàng cụ thể
print(students[2,])

# Lấy một ô cụ thể
print(students[1, "grade"])

# Lấy nhiều cột
print(students[, c("name", "age")])

Các lệnh này sẽ xuất ra:

[1] "Alice"   "Bob"     "Charlie"

name age grade
2  Bob  25     B

[1] "A"

name age
1  Alice  22
2    Bob  25
3 Charlie 23

Ký hiệu $ cho phép bạn truy cập một cột bằng tên. Dấu ngoặc vuông [] cho phép bạn chỉ định hàng và cột: [hàng, cột]. Nếu bạn để trống hàng hoặc cột, nó sẽ chọn tất cả các hàng hoặc cột.

Mở rộng Data Frame

Khi dữ liệu của bạn phát triển, bạn có thể cần thêm thông tin vào data frame của mình. Hãy xem làm thế nào:

# Thêm một cột mới
students$height <- c(165, 180, 175)

# Thêm một hàng mới
new_student <- data.frame(name = "David", age = 24, grade = "B+", height = 178)
students <- rbind(students, new_student)

# Hãy xem data frame đã cập nhật của chúng ta
print(students)

Điều này sẽ cho chúng ta:

name age grade height
1  Alice  22     A    165
2    Bob  25     B    180
3 Charlie 23    A-    175
4  David  24    B+    178

Chúng ta đã thêm một cột mới 'height' sử dụng ký hiệu $ và một hàng mới sử dụng hàm rbind() (đứng cho "row bind").

Các phương thức hữu ích cho Data Frame

Dưới đây là bảng của một số phương thức hữu ích cho việc làm việc với data frames:

Phương thức Mô tả
head(df) Hiển thị 6 hàng đầu tiên của data frame
tail(df) Hiển thị 6 hàng cuối cùng của data frame
nrow(df) Lấy số lượng hàng
ncol(df) Lấy số lượng cột
names(df) Lấy tên các cột
colnames(df) Một cách khác để lấy hoặc đặt tên các cột
rownames(df) Lấy hoặc đặt tên các hàng
dim(df) Lấy kích thước (hàng và cột)

Hãy thử các phương thức này trên data frame students của chúng ta!

Và thế là bạn đã có nó, các bạn! Bạn đã chính thức bước vào thế giới của data frames trong R. Nhớ rằng, thực hành là chìa khóa của thành công, vì vậy đừng ngại thử nghiệm với các lệnh này. Tạo của mình data frames, thử các thao tác khác nhau, và xem điều gì xảy ra.

Và biết đâu, có thể một ngày nào đó bạn sẽ sử dụng kỹ năng này để phân tích dữ liệu từ các thuộc địa trên sao Hỏa hoặc các thành phố dưới nước. Các khả năng là vô tận!

Tiếp tục lập trình, hãy tò mò, và quan trọng nhất, hãy vui vẻ! Đến gặp lại các bạn lần sau, chúc các bạn lập trình R vui vẻ!

Credits: Image by storyset