R - Scatterplots
Введение
Здравствуйте! Добро пожаловать в наше путешествие в мир визуализации данных с помощью R. Сегодня мы погрузимся в создание scatterplots с использованием R, мощного языка программирования, который广泛应用于 в области статистики и анализа данных. Если вы новички в программировании или только начали работать с R, не волнуйтесь — мы будем двигаться медленно и убедимся, что вы понимаете каждый шаг.
Scatterplots — это отличной способ визуализации взаимосвязи между двумя переменными. Они позволяют нам увидеть, есть ли между ними паттерн или корреация. Например, если у вас есть набор данных с ростом и весом людей, scatterplot поможет вам определить, tend ли более высокие люди весить больше или vice versa.
Давайте начнем!
Создание Scatterplot
Шаг 1: Установка и загрузка R
Before мы можем создать какие-либо графики в R, нам нужно установить и загрузить необходимые пакеты. Пакет ggplot2
является одним из самых популярных для создания красивых и настраиваемых графиков. Чтобы установить его, вы можете использовать следующую команду в вашем R консоли:
install.packages("ggplot2")
Once вы установили пакет, вам нужно загрузить его в вашу R среду. Вам нужно сделать это только один раз за сеанс:
library(ggplot2)
Шаг 2: Создание Scatterplot
Теперь, когда у нас все настроено, давайте создадим наш первый scatterplot. Мы будем использовать встроенный набор данных под названием mtcars
, который содержит информацию о различных моделях автомобилей. Мы нарисуем miles per gallon (mpg) против лошадиных сил (hp).
First, давайте посмотрим на набор данных:
head(mtcars)
Это покажет вам первые несколько строк набора данных, давая вам представление о том, как он выглядит.
Теперь создадим scatterplot:
ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()
Вот что делает каждая часть:
-
ggplot(data = mtcars, aes(x = hp, y = mpg))
: Это initializes график с набором данныхmtcars
и устанавливает ось x как лошадиные силы, а ось y как miles per gallon. -
geom_point()
: Это добавляет точки на график на основе значений x и y из набора данных.
When вы выполните этот код, вы должны увидеть scatterplot, где каждая точка представляет модель автомобиля, и ее положение определяется ее лошадиными силами и miles per gallon.
Шаг 3: Настройка Scatterplot
Теперь, когда у нас есть базовый scatterplot, давайте добавим немного стиля. Мы можем изменить цвет точек, добавить заголовок и даже отрегулировать размер точек.
ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "Horsepower vs. Miles Per Gallon", x = "Horsepower", y = "Miles Per Gallon")
В этой обновленной версии мы добавили следующее:
-
color = "blue"
: Это изменяет цвет точек на синий. -
size = 3
: Это делает точки немного больше. -
labs(title = ..., x = ..., y = ...)
: Это добавляет заголовок к графику и подписи для осей x и y.
Feel free к experiment с разными цветами и размерами, чтобы увидеть, как они влияют на appearance вашего графика.
Scatterplot Matrices
Теперь, когда вы знаете, как создать один scatterplot, давайте перейдем к чему-то более сложному: scatterplot matrices. Это сетки scatterplots, которые позволяют вам сравнивать несколько переменных одновременно. Это как если бы у вас была целая галерея отдельных scatterplots в одном месте!
Чтобы создать scatterplot matrix, мы kullanнем другой пакет под названием GGally
. Сначала вам нужно установить его:
install.packages("GGally")
И затем загрузить:
library(GGally)
Теперь создадим scatterplot matrix используя тот же набор данных mtcars
:
ggpairs(mtcars)
Запуск этого кода сгенерирует matrix scatterplots, где каждый график показывает взаимосвязь между двумя переменными. Диагональ содержит гистограммы каждой переменной, а верхний и нижний треугольники содержат scatterplots, сравнивающие пары переменных.
Вы можете further customize scatterplot matrix, добавляя color scales, faceting по категориям и многое другое. Проверьте документацию для ggpairs()
чтобы узнать больше о всех доступных вам опциях.
Заключение
Поздравляю! Вы теперь знаете, как создавать scatterplots в R используя пакет ggplot2
и как создавать scatterplot matrices с помощью пакета GGally
. Эти навыки необходимы для любого, кто хочет исследовать взаимосвязи между переменными в своих данных. Помните, что практика делает perfect, так что продолжайте пробовать разные наборы данных и настройки, чтобы улучшить свои навыки визуализации. Счастливого кодирования!
Credits: Image by storyset