R - Scatterplots

Введение

Здравствуйте! Добро пожаловать в наше путешествие в мир визуализации данных с помощью R. Сегодня мы погрузимся в создание scatterplots с использованием R, мощного языка программирования, который广泛应用于 в области статистики и анализа данных. Если вы новички в программировании или только начали работать с R, не волнуйтесь — мы будем двигаться медленно и убедимся, что вы понимаете каждый шаг.

R - Scatterplots

Scatterplots — это отличной способ визуализации взаимосвязи между двумя переменными. Они позволяют нам увидеть, есть ли между ними паттерн или корреация. Например, если у вас есть набор данных с ростом и весом людей, scatterplot поможет вам определить, tend ли более высокие люди весить больше или vice versa.

Давайте начнем!

Создание Scatterplot

Шаг 1: Установка и загрузка R

Before мы можем создать какие-либо графики в R, нам нужно установить и загрузить необходимые пакеты. Пакет ggplot2 является одним из самых популярных для создания красивых и настраиваемых графиков. Чтобы установить его, вы можете использовать следующую команду в вашем R консоли:

install.packages("ggplot2")

Once вы установили пакет, вам нужно загрузить его в вашу R среду. Вам нужно сделать это только один раз за сеанс:

library(ggplot2)

Шаг 2: Создание Scatterplot

Теперь, когда у нас все настроено, давайте создадим наш первый scatterplot. Мы будем использовать встроенный набор данных под названием mtcars, который содержит информацию о различных моделях автомобилей. Мы нарисуем miles per gallon (mpg) против лошадиных сил (hp).

First, давайте посмотрим на набор данных:

head(mtcars)

Это покажет вам первые несколько строк набора данных, давая вам представление о том, как он выглядит.

Теперь создадим scatterplot:

ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()

Вот что делает каждая часть:

  • ggplot(data = mtcars, aes(x = hp, y = mpg)): Это initializes график с набором данных mtcars и устанавливает ось x как лошадиные силы, а ось y как miles per gallon.
  • geom_point(): Это добавляет точки на график на основе значений x и y из набора данных.

When вы выполните этот код, вы должны увидеть scatterplot, где каждая точка представляет модель автомобиля, и ее положение определяется ее лошадиными силами и miles per gallon.

Шаг 3: Настройка Scatterplot

Теперь, когда у нас есть базовый scatterplot, давайте добавим немного стиля. Мы можем изменить цвет точек, добавить заголовок и даже отрегулировать размер точек.

ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "Horsepower vs. Miles Per Gallon", x = "Horsepower", y = "Miles Per Gallon")

В этой обновленной версии мы добавили следующее:

  • color = "blue": Это изменяет цвет точек на синий.
  • size = 3: Это делает точки немного больше.
  • labs(title = ..., x = ..., y = ...): Это добавляет заголовок к графику и подписи для осей x и y.

Feel free к experiment с разными цветами и размерами, чтобы увидеть, как они влияют на appearance вашего графика.

Scatterplot Matrices

Теперь, когда вы знаете, как создать один scatterplot, давайте перейдем к чему-то более сложному: scatterplot matrices. Это сетки scatterplots, которые позволяют вам сравнивать несколько переменных одновременно. Это как если бы у вас была целая галерея отдельных scatterplots в одном месте!

Чтобы создать scatterplot matrix, мы kullanнем другой пакет под названием GGally. Сначала вам нужно установить его:

install.packages("GGally")

И затем загрузить:

library(GGally)

Теперь создадим scatterplot matrix используя тот же набор данных mtcars:

ggpairs(mtcars)

Запуск этого кода сгенерирует matrix scatterplots, где каждый график показывает взаимосвязь между двумя переменными. Диагональ содержит гистограммы каждой переменной, а верхний и нижний треугольники содержат scatterplots, сравнивающие пары переменных.

Вы можете further customize scatterplot matrix, добавляя color scales, faceting по категориям и многое другое. Проверьте документацию для ggpairs() чтобы узнать больше о всех доступных вам опциях.

Заключение

Поздравляю! Вы теперь знаете, как создавать scatterplots в R используя пакет ggplot2 и как создавать scatterplot matrices с помощью пакета GGally. Эти навыки необходимы для любого, кто хочет исследовать взаимосвязи между переменными в своих данных. Помните, что практика делает perfect, так что продолжайте пробовать разные наборы данных и настройки, чтобы улучшить свои навыки визуализации. Счастливого кодирования!

Credits: Image by storyset