R - Đồ thị.scatter
Giới thiệu
Xin chào! Chào mừng bạn đến với hành trình của chúng tôi vào thế giới trực quan hóa dữ liệu với R. Hôm nay, chúng ta sẽ cùng nhau khám phá cách tạo đồ thị.scatter bằng R, một ngôn ngữ lập trình mạnh mẽ và được sử dụng rộng rãi trong lĩnh vực thống kê và phân tích dữ liệu. Nếu bạn là người mới bắt đầu lập trình hoặc mới làm quen với R, đừng lo lắng - chúng ta sẽ đi từ từ và đảm bảo bạn hiểu rõ từng bước.
Đồ thị.scatter là một cách tuyệt vời để trực quan hóa mối quan hệ giữa hai biến. Chúng cho phép chúng ta thấy liệu có sự mẫu tự hoặc tương quan giữa chúng hay không. Ví dụ, nếu bạn có một bộ dữ liệu về chiều cao và cân nặng của người, một đồ thị.scatter có thể giúp bạn xác định liệu người cao thường có xu hướng nặng hơn hay ngược lại.
Hãy bắt đầu nào!
Tạo Đồ thị.scatter
Bước 1: Cài đặt và Tải R
Trước khi chúng ta có thể tạo bất kỳ biểu đồ nào trong R, chúng ta cần cài đặt và tải các gói cần thiết. Gói ggplot2
là một trong những gói phổ biến nhất để tạo ra các biểu đồ đẹp và tùy chỉnh. Để cài đặt nó, bạn có thể sử dụng lệnh sau trong console R của bạn:
install.packages("ggplot2")
Sau khi cài đặt gói, bạn cần tải nó vào môi trường R của bạn. Bạn chỉ cần làm này một lần mỗi phiên:
library(ggplot2)
Bước 2: Tạo Đồ thị.scatter
Bây giờ chúng ta đã thiết lập mọi thứ, hãy tạo biểu đồ scatterplot đầu tiên của chúng ta. Chúng ta sẽ sử dụng bộ dữ liệu内置 mtcars
, chứa thông tin về các mẫu xe khác nhau. Chúng ta sẽ vẽ miles per gallon (mpg) chống lại马力 (hp).
Đầu tiên, hãy xem xét bộ dữ liệu:
head(mtcars)
Điều này sẽ hiển thị cho bạn một vài hàng đầu tiên của bộ dữ liệu, cho bạn một ý tưởng về nó trông như thế nào.
Bây giờ, hãy tạo đồ thị.scatter:
ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()
Dưới đây là cách mỗi phần hoạt động:
-
ggplot(data = mtcars, aes(x = hp, y = mpg))
: Đây khởi tạo biểu đồ với bộ dữ liệumtcars
và đặt trục x là马力 và trục y là miles per gallon. -
geom_point()
: Điều này thêm các điểm vào biểu đồ dựa trên các giá trị x và y từ bộ dữ liệu.
Khi bạn chạy đoạn mã này, bạn nên thấy một đồ thị.scatter trong đó mỗi điểm đại diện cho một mẫu xe, với vị trí của nó xác định bởi马力 và miles per gallon.
Bước 3: Tùy chỉnh Đồ thị.scatter
Bây giờ chúng ta đã có một đồ thị.scatter cơ bản, hãy thêm một chút phong cách vào nó. Chúng ta có thể thay đổi màu sắc của các điểm, thêm tiêu đề, và thậm chí điều chỉnh kích thước của các điểm.
ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "Horsepower vs. Miles Per Gallon", x = "Horsepower", y = "Miles Per Gallon")
Trong phiên bản cập nhật này, chúng tôi đã thêm:
-
color = "blue"
: Điều này thay đổi màu sắc của các điểm thành xanh lam. -
size = 3
: Điều này làm cho các điểm lớn hơn một chút. -
labs(title = ..., x = ..., y = ...)
: Điều này thêm tiêu đề cho biểu đồ và nhãn cho các trục x và y.
Hãy thoải mái thử nghiệm với các màu sắc và kích thước khác nhau để xem chúng ảnh hưởng như thế nào đến ngoại hình của biểu đồ của bạn.
Ma trận Đồ thị.scatter
Bây giờ bạn đã biết cách tạo một đồ thị.scatter đơn, hãy chuyển sang một điều gì đó phức tạp hơn: ma trận đồ thị.scatter. Đây là các lưới của các đồ thị.scatter cho phép bạn so sánh nhiều biến cùng một lúc. Nó giống như có một toàn bộ bảo tàng của các đồ thị.scatter tất cả trong một nơi!
Để tạo ma trận đồ thị.scatter, chúng ta sẽ sử dụng một gói khác叫做 GGally
. Đầu tiên, bạn cần cài đặt nó:
install.packages("GGally")
Và sau đó tải nó:
library(GGally)
Bây giờ, hãy tạo ma trận đồ thị.scatter sử dụng cùng một bộ dữ liệu mtcars
:
ggpairs(mtcars)
Chạy đoạn mã này sẽ tạo ra một ma trận của các đồ thị.scatter, trong đó mỗi biểu đồ hiển thị mối quan hệ giữa hai biến. Đường chéo chứa các biểu đồ hist của mỗi biến, và các tam giác trên và dưới chứa các đồ thị.scatter so sánh các cặp biến.
Bạn có thể tùy chỉnh ma trận đồ thị.scatter thêm bằng cách thêm các thang màu, phân trang theo các danh mục, và hơn thế nữa. Kiểm tra tài liệu cho ggpairs()
để tìm hiểu thêm về tất cả các tùy chọn có sẵn cho bạn.
Kết luận
Chúc mừng! Bạn đã học cách tạo đồ thị.scatter trong R bằng cách sử dụng gói ggplot2
và cách tạo ma trận đồ thị.scatter với gói GGally
. Những kỹ năng này rất quan trọng cho bất kỳ ai muốn khám phá mối quan hệ giữa các biến trong dữ liệu của họ. Nhớ rằng, thực hành làm cho hoàn hảo, vì vậy hãy tiếp tục thử nghiệm với các bộ dữ liệu và tùy chỉnh khác nhau để cải thiện kỹ năng trực quan hóa dữ liệu của bạn. Chúc bạn lập trình vui vẻ!
Credits: Image by storyset