R - Boxplots: руковод BEGINNER'S GUIDE TO VISUALIZING DATA DISTRIBUTION

Здравствуйте, начинающие маги данных! Сегодня мы отправимся в увлекательное путешествие в мир箱чатых диаграмм с использованием R. Не беспокойтесь, если вы никогда не программировали раньше - я буду вашим дружественным проводником, и мы будем двигаться шаг за шагом. К концу этого руководства вы сможете создавать красивые箱чатые диаграммы, как профессионал!

R - Boxplots

Что такое箱形 диаграмма?

Прежде чем погрузиться в код, давайте поймем, что такое箱чатая диаграмма. Представьте, что вы пытаетесь резюмировать рост всех студентов в вашем классе.箱形 диаграмма - это как удобная коробочка, которая позволяет вам одним взглядом увидеть разброс этих данных. Это великолепный способ увидеть медиану, квартили и любые аутлайеры в ваших данных.

Создание вашей первой箱чатой диаграммы

Настройка вашей среды R

Сначала убедитесь, что у вас есть R и он готов к использованию. Если вы еще не установили R, перейдите на официальный сайт R и следуйте инструкциям по установке для вашей операционной системы.

Как только у вас установлен R, откройте консоль R или RStudio, если вы его используете. Мы готовы создать несколько箱чатых диаграмм!

Основной синтаксис для создания箱чатой диаграммы

Основной синтаксис для создания箱чатой диаграммы в R удивительно прост. Вот как он выглядит:

boxplot(data)

Давайте попробуем это с реальными данными. Мы будем использовать встроенный набор данных mtcars, который содержит информацию о различных моделях автомобилей.

# Создание базовой箱чатой диаграммы для показателя пробега автомобилей
boxplot(mtcars$mpg)

Когда вы выполните этот код, вы увидите, как появляется箱чатая диаграмма. Давайте разберем, что вы видите:

  • Толстая черная линия в середине коробки - это медиана.
  • Нижняя часть коробки представляет собой первый квартиль (25% данных находится ниже этой точки).
  • Верхняя часть коробки представляет собой третий квартиль (75% данных находится ниже этой точки).
  • Щетинки (линии, отходящие от коробки) показывают диапазон данных.
  • Любые точки за пределами щетинок считаются аутлайерами.

Добавление цвета и меток

Теперь давайте сделаем нашу箱чатую диаграмму немного более информативной и визуально привлекательной:

# Создание более детализированной箱чатой диаграммы
boxplot(mtcars$mpg,
main="Car Mileage Distribution",
ylab="Miles Per Gallon",
col="lightblue",
border="darkblue")

В этом примере:

  • main добавляет заголовок к нашему графику.
  • ylab labeling the y-axis.
  • col заливает коробку светло-синим цветом.
  • border делает контур коробки dark blue.

Сравнение нескольких групп

Одним из преимуществ箱чатых диаграмм является возможность сравнения различных групп бок о бок. Давайте сравним пробег автомобилей с разным количеством цилиндров:

# Сравнение пробега для مختلفого количества цилиндров
boxplot(mpg ~ cyl, data=mtcars,
main="Car Mileage by Number of Cylinders",
xlab="Number of Cylinders",
ylab="Miles Per Gallon",
col=c("lightgreen", "lightblue", "pink"))

Здесь мы используем формульный синтаксис mpg ~ cyl, который tells R to create boxplots of mpg for each unique value in cyl. Мы также добавили разные цвета для каждой группы.

箱形 диаграмма с выемкой

Теперь, когда мы освоили основы, добавим немного изысканности к нашим箱чатым диаграммам с выемками.

Что такое выемка?

Выемка - это маленькая выемка на сторонах коробки. Это не просто для внешнего вида - она действительно помогает нам сравнивать медианы между группами. Если выемки двух коробок не перекрываются, это является сильным доказательством того, что медианы этих групп различаются.

Создание箱чатой диаграммы с выемкой

Давайте модифицируем наш предыдущий пример, чтобы включить выемки:

# Создание箱чатой диаграммы с выемками
boxplot(mpg ~ cyl, data=mtcars,
main="Car Mileage by Number of Cylinders",
xlab="Number of Cylinders",
ylab="Miles Per Gallon",
col=c("lightgreen", "lightblue", "pink"),
notch=TRUE)

Единственный новый параметр здесь - notch=TRUE. Это простое добавление дает нам эти информативные выемки.

Интерпретация箱чатых диаграмм с выемками

Рассмотрите выемки внимательно. Если выемки двух коробок не перекрываются, мы можем быть уверены, что истинные медианы этих групп различаются. Это быстрый визуальный способ обнаружить значимые различия между группами!

Настройка ваших箱чатых диаграмм

Теперь, когда у вас есть основы, давайте рассмотрим несколько способов сделать ваши箱чатые диаграммы еще более информативными и визуально привлекательными.

Добавление отдельных точек данных

Иногда полезно видеть реальные точки данных рядом с箱чатой диаграммой. Мы можем сделать это с помощью функции jitter:

#箱形 диаграмма с отдельными точками
boxplot(mpg ~ cyl, data=mtcars,
main="Car Mileage by Number of Cylinders",
xlab="Number of Cylinders",
ylab="Miles Per Gallon",
col=c("lightgreen", "lightblue", "pink"),
notch=TRUE)

# Добавление точек с рябью
stripchart(mpg ~ cyl, data=mtcars,
method="jitter",
vertical=TRUE,
add=TRUE,
pch=20,
col="darkgray")

Этот код сначала создает箱чатую диаграмму, а затем наложит отдельные точки данных. Параметр pch=20 делает точки маленькими кругами, а col="darkgray" окрашивает их в темно-серый цвет.

Изменение внешнего вида аутлайеров

По умолчанию аутлайеры в箱чатых диаграммах показаны в виде простых точек. Мы можем изменить их внешний вид:

# Настройка внешнего вида аутлайеров
boxplot(mpg ~ cyl, data=mtcars,
main="Car Mileage by Number of Cylinders",
xlab="Number of Cylinders",
ylab="Miles Per Gallon",
col=c("lightgreen", "lightblue", "pink"),
notch=TRUE,
outpch=8,  # Звездообразные точки аутлайеров
outcol="red")  # Красные аутлайеры

Здесь outpch=8 изменяет точки аутлайеров на звезды, а outcol="red" окрашивает их в красный цвет.

Заключение

Поздравляю! Вы только что научились создавать и настраивать箱чатые диаграммы в R. От базовых графиков до выемчатых сравнений и даже добавления отдельных точек данных, у вас теперь есть мощный инструмент в вашем арсенале визуализации данных.

помните, ключ к овладению箱чатыми diagragramмами (и R в целом) - это практика. Попробуйте создавать箱чатые diagragramмы с различными наборами данных, экспериментируйте с цветами и стилями, и, что самое главное, получайте удовольствие от этого!

Вот быстрый справочный стол с параметрами箱чатых diagragramм, которые мы рассмотрели:

Параметр Описание Пример
main Заголовок diagrama main="My Boxplot"
xlab Метка для оси x xlab="Groups"
ylab Метка для оси y ylab="Values"
col Цвет заливки коробок col="lightblue"
border Цвет контура коробок border="darkblue"
notch Добавление выемок к коробкам notch=TRUE
outpch Форма точек аутлайеров outpch=8
outcol Цвет точек аутлайеров outcol="red"

Счастливо рисуйте, и пусть ваши данные всегда будутBeautifully boxed!

Credits: Image by storyset