Hướng dẫn cơ bản về Biểu đồ Histogram trong R

Xin chào các bạn đang học数据分析法师! Hôm nay, chúng ta sẽ bắt đầu một hành trình thú vị vào thế giới của biểu đồ Histogram sử dụng R. Đừng lo lắng nếu bạn chưa bao giờ viết một dòng mã trước đây - tôi sẽ là người hướng dẫn thân thiện của bạn, và chúng ta sẽ cùng nhau bước từng bước. Cuối cùng của bài hướng dẫn này, bạn sẽ có thể tạo ra những biểu đồ Histogram đẹp mắt như một chuyên gia!

R - Histograms

Biểu đồ Histogram là gì?

Trước khi chúng ta nhảy vào R, hãy hiểu biểu đồ Histogram là gì. Hãy tưởng tượng bạn là một giáo viên (như tôi!) và bạn muốn xem học sinh của bạn đã thể hiện như thế nào trong một bài kiểm tra. Biểu đồ Histogram giống như một biểu đồ cột cho thấy sự phân phối của dữ liệu của bạn. Nó nhóm dữ liệu của bạn thành các "bin" hoặc khoảng và cho thấy có bao nhiêu điểm dữ liệu rơi vào mỗi bin.

Bắt đầu với R

Trước hết, hãy khởi động R! Nếu bạn chưa cài đặt R, hãy truy cập trang web của Dự án R và làm theo hướng dẫn cài đặt cho hệ điều hành của bạn.

Khi bạn đã cài đặt và chạy R, bạn sẽ thấy một console nơi bạn có thể gõ lệnh. Đây là nơi phép thuật xảy ra!

Tạo biểu đồ Histogram đầu tiên

Hãy bắt đầu với một ví dụ đơn giản. Chúng ta sẽ tạo một biểu đồ Histogram của một số điểm kiểm tra.

# Tạo một vector của điểm kiểm tra
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)

# Tạo một biểu đồ Histogram
hist(scores)

Khi bạn chạy đoạn mã này, bạn sẽ thấy một biểu đồ Histogram cơ bản xuất hiện. Thật tuyệt vời phải không? Hãy phân tích những gì chúng ta đã làm:

  1. Chúng ta tạo một vector叫做 scores với một số điểm kiểm tra.
  2. Chúng ta sử dụng hàm hist() để tạo một biểu đồ Histogram của các điểm này.

R tự động quyết định số lượng bin và phạm vi của mỗi bin. Nhưng nếu bạn muốn có nhiều kiểm soát hơn đối với biểu đồ Histogram của mình? Đó là nơi phép thuật của R thực sự tỏa sáng!

Tùy chỉnh biểu đồ Histogram

Xác định số lượng bin

Chúng ta có thể nói cho R biết chính xác số lượng bin chúng ta muốn:

hist(scores, breaks = 5)

Điều này sẽ tạo ra một biểu đồ Histogram với 5 bin. Hãy thử nghiệm với các số khác nhau và xem nó thay đổi diện mạo của biểu đồ Histogram của bạn như thế nào!

Thêm tiêu đề và nhãn

Hãy làm cho biểu đồ Histogram của chúng ta trở nên thông tin hơn:

hist(scores,
main = "Phân phối điểm kiểm tra",
xlab = "Điểm",
ylab = "Tần suất",
col = "skyblue",
border = "darkblue")

Dưới đây là những gì mỗi tham số mới làm:

  • main: Thêm tiêu đề cho biểu đồ Histogram
  • xlabylab: Đặt nhãn cho trục x và y
  • col: Đặt màu của các thanh
  • border: Đặt màu của viền các thanh

Điều chỉnh phạm vi của giá trị X và Y

Đôi khi, bạn có thể muốn tập trung vào một phạm vi giá trị cụ thể hoặc điều chỉnh thang của biểu đồ Histogram. Hãy xem chúng ta có thể làm như thế nào:

hist(scores,
xlim = c(60, 100),  # Đặt phạm vi trục x
ylim = c(0, 5),     # Đặt phạm vi trục y
breaks = seq(60, 100, by = 5))  # Tạo các bin từ 60 đến 100, mỗi 5 điểm

Đoạn mã này điều chỉnh trục x để hiển thị điểm từ 60 đến 100, đặt trục y lên đến 5, và tạo các bin mỗi 5 điểm.

Kỹ thuật biểu đồ Histogram nâng cao

Bây giờ bạn đã nắm vững các bước cơ bản, hãy cùng khám phá một số kỹ thuật nâng cao!

Thêm đường cong mật độ

Một đường cong mật độ có thể giúp bạn trực quan hóa sự phân phối dữ liệu của bạn:

hist(scores,
probability = TRUE,  # Hiển thị mật độ thay vì tần suất
main = "Phân phối điểm kiểm tra với Đường cong mật độ")

# Thêm đường cong mật độ
lines(density(scores), col = "red", lwd = 2)

Đoạn mã này trước tiên tạo một biểu đồ Histogram hiển thị mật độ, sau đó thêm một đường cong mật độ mượt mà lên trên.

Tạo nhiều biểu đồ Histogram

Nếu bạn muốn so sánh các phân phối, hãy cùng tạo biểu đồ Histogram cho hai lớp học bên cạnh nhau:

par(mfrow = c(1, 2))  # Thiết lập một lưới 1x2 cho các biểu đồ

# Điểm của lớp A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Điểm của lớp A", col = "lightblue")

# Điểm của lớp B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Điểm của lớp B", col = "lightgreen")

Đoạn mã này thiết lập một so sánh song song của hai biểu đồ Histogram, cho phép bạn dễ dàng so sánh các phân phối.

Các hàm hữu ích cho biểu đồ Histogram

Dưới đây là bảng các hàm chúng ta đã sử dụng, cộng với một số hàm khác bạn có thể thấy hữu ích:

Hàm Mô tả
hist() Tạo một biểu đồ Histogram cơ bản
breaks Xác định số lượng bin hoặc mép bin
main Đặt tiêu đề chính của biểu đồ Histogram
xlab, ylab Đặt nhãn cho trục x và y
col Đặt màu của các thanh Histogram
border Đặt màu của viền các thanh
xlim, ylim Đặt phạm vi của trục x và y
density() Tính toán ước lượng mật độ kernel
lines() Thêm các đường vào biểu đồ hiện có
par() Đặt hoặc truy vấn các tham số đồ họa

Kết luận

Chúc mừng! Bạn đã chính thức bước đầu vào thế giới của biểu đồ Histogram trong R. Nhớ rằng, tạo ra các biểu đồ trực quan hiệu quả không chỉ là khoa học mà còn là nghệ thuật. Đừng ngần ngại thử nghiệm với các tham số khác nhau và xem chúng ảnh hưởng như thế nào đến biểu đồ Histogram của bạn.

Trong hành trình tiếp theo của bạn với R, bạn sẽ khám phá rằng biểu đồ Histogram chỉ là phần nổi của tảng băng khi nói đến biểu đồ hóa dữ liệu. Nhưng chúng là một điểm khởi đầu tuyệt vời, và kỹ năng bạn đã học ở đây sẽ giúp bạn rất nhiều khi bạn khám phá các chủ đề nâng cao hơn.

Tiếp tục thực hành, giữ vững sự tò mò và chúc bạn may mắn trong việc mã hóa! Trước khi bạn biết, bạn sẽ là người hướng dẫn người khác về những kỳ diệu của R và biểu đồ hóa dữ liệu.

Credits: Image by storyset