R - Ph hồi quy Tuyến tính: Hướng dẫn cho người mới bắt đầu
Xin chào các bạn, những nhà khoa học dữ liệu tương lai! Hôm nay, chúng ta sẽ bắt đầu một hành trình thú vị vào thế giới của hồi quy tuyến tính bằng R. Đừng lo lắng nếu bạn chưa bao giờ lập trình trước đây - tôi sẽ ở đây cùng bạn, giải thích từng bước một. Cuối cùng của bài hướng dẫn này, bạn sẽ ngạc nhiên với những gì bạn có thể đạt được chỉ với vài dòng mã!
什么是线性回归?
Trước khi chúng ta nhảy vào mã R, hãy hiểu qua về hồi quy tuyến tính là gì. Hãy tưởng tượng bạn đang cố dự đoán bạn sẽ bán được bao nhiêu kem dựa trên nhiệt độ ngoài trời. Bạn có thể nhận thấy rằng khi nhiệt độ tăng lên, doanh số kem của bạn cũng tăng theo. Hồi quy tuyến tính giúp chúng ta tìm và mô tả mối quan hệ này một cách toán học.
Bước để Thiết lập một Hồi quy
Bây giờ, hãy chia quá trình thực hiện hồi quy tuyến tính trong R thành các bước dễ quản lý:
1. Chuẩn bị Dữ liệu
Đầu tiên, chúng ta cần một chút dữ liệu để làm việc. Trong R, chúng ta có thể tạo ra bộ dữ liệu của riêng mình hoặc nhập một bộ dữ liệu. Hãy tạo một bộ dữ liệu đơn giản về nhiệt độ và doanh số kem:
temperature <- c(20, 22, 25, 27, 30, 32, 35)
ice_cream_sales <- c(50, 55, 65, 70, 80, 85, 95)
# Kết hợp thành một khung dữ liệu
ice_cream_data <- data.frame(temperature, ice_cream_sales)
# Xem dữ liệu
print(ice_cream_data)
Khi bạn chạy đoạn mã này, bạn sẽ thấy một bảng nhỏ với dữ liệu nhiệt độ và doanh số kem của chúng ta. Thật tuyệt vời phải không?
2. T可视化解 liệu
Trước khi chúng ta bắt đầu bất kỳ phân tích nào, luôn là một ý tưởng tốt để xem xét dữ liệu của mình. R làm điều này rất dễ dàng với các hàm vẽ biểu đồ:
plot(ice_cream_data$temperature, ice_cream_data$ice_cream_sales,
main = "Doanh số kem vs Nhiệt độ",
xlab = "Nhiệt độ (°C)", ylab = "Doanh số kem",
pch = 19, col = "blue")
Đoạn mã này sẽ tạo một biểu đồ.scatter của dữ liệu của chúng ta. Tham số main
đặt tiêu đề, xlab
và ylab
gán nhãn cho trục, pch = 19
làm cho các điểm là các vòng tròn đặc, và col = "blue"
màu xanh lam cho chúng. Thử nghiệm với các tùy chọn này - làm cho nó thành của bạn!
3. Thực hiện Hồi quy Tuyến tính
Bây giờ đến phần thú vị - thực sự thực hiện hồi quy tuyến tính. Trong R, chúng ta sử dụng hàm lm()
, có nghĩa là "mô hình tuyến tính":
ice_cream_model <- lm(ice_cream_sales ~ temperature, data = ice_cream_data)
Dòng này có thể trông đơn giản, nhưng nó đang thực hiện rất nhiều công việc phía sau màn hình. Nó đang tìm đường phù hợp tốt nhất qua các điểm dữ liệu của chúng ta.
4. Khám phá Kết quả
Hãy nhìn vào những gì mô hình của chúng ta đã tìm thấy:
summary(ice_cream_model)
Lệnh này sẽ cung cấp cho bạn một bản tóm tắt chi tiết của mô hình của bạn. Đừng lo lắng nếu một số phần của nó trông đáng sợ - chúng ta sẽ tập trung vào các phần quan trọng:
- Phần Coefficients cho thấy hệ số và tiếp tuyến của đường của chúng ta.
- Giá trị R-squared cho biết mô hình của chúng ta phù hợp với dữ liệu như thế nào.
5. T可视化解 quy Tuyến tính
Bây giờ, hãy thêm đường hồi quy của chúng ta vào biểu đồ của chúng ta:
plot(ice_cream_data$temperature, ice_cream_data$ice_cream_sales,
main = "Doanh số kem vs Nhiệt độ",
xlab = "Nhiệt độ (°C)", ylab = "Doanh số kem",
pch = 19, col = "blue")
abline(ice_cream_model, col = "red")
Hàm abline()
thêm đường hồi quy của chúng ta vào biểu đồ. Có phải nó rất hài lòng khi thấy đường này chạy qua các điểm của chúng ta không?
Hàm lm(): Người bạn mới của bạn
Chúng ta đã sử dụng hàm lm()
trước đây, nhưng hãy đi sâu hơn một chút. Hàm này là trái tim của hồi quy tuyến tính trong R. Dưới đây là cấu trúc cơ bản của nó:
lm(formula, data)
-
formula
: Đây xác định mối quan hệ giữa các biến của bạn. Trong trường hợp của chúng ta, nó làice_cream_sales ~ temperature
. -
data
: Đây là bộ dữ liệu bạn đang sử dụng.
Ký tự ~
trong công thức được đọc là "được mô hình hóa như một hàm của". Vậy công thức của chúng ta đọc là "doanh số kem được mô hình hóa như một hàm của nhiệt độ".
Hàm predict(): Làm dự đoán
Bây giờ chúng ta có mô hình của mình, chúng ta có thể sử dụng nó để làm dự đoán. Đó là nơi hàm predict()
rất hữu ích:
new_temperatures <- data.frame(temperature = c(23, 28, 33))
predicted_sales <- predict(ice_cream_model, newdata = new_temperatures)
print(predicted_sales)
Đoạn mã này dự đoán doanh số kem cho các nhiệt độ 23°C, 28°C và 33°C. Rất thú vị phải không?
Bảng các Hàm Hữu ích
Dưới đây là bảng tham khảo nhanh của các hàm chính chúng ta đã sử dụng:
Hàm | Mục đích | Ví dụ |
---|---|---|
lm() |
Thực hiện hồi quy tuyến tính | lm(y ~ x, data) |
summary() |
Lấy kết quả chi tiết của mô hình | summary(model) |
plot() |
Tạo biểu đồ.scatter | plot(x, y) |
abline() |
Thêm đường hồi quy vào biểu đồ | abline(model) |
predict() |
Làm dự đoán | predict(model, newdata) |
Nhớ rằng, thực hành làm nên hoàn hảo! Đừng ngần ngại thử nghiệm với các hàm này và thử chúng trên các bộ dữ liệu khác nhau. Trước khi bạn biết, bạn sẽ trở thành chuyên gia về hồi quy tuyến tính!
Cuối cùng, hồi quy tuyến tính là một công cụ mạnh mẽ để hiểu mối quan hệ giữa các biến và làm dự đoán. Với R, bạn có tất cả các công cụ bạn cần ngay trong tầm tay. Tiếp tục khám phá, tiếp tục học hỏi, và quan trọng nhất, hãy vui vẻ với nó!
Credits: Image by storyset