R - Гистограммы: Путеводитель для начинающих

Здравствуйте, стремящиеся к знаниям данные маги! Сегодня мы отправимся в увлекательное путешествие в мир гистограмм с использованием R. Не волнуйтесь, если вы никогда раньше не писали ни строчки кода – я буду вашим доброжелательным проводником, и мы будем двигаться шаг за шагом. К концу этого руководства вы будете создавать красивые гистограммы, как профи!

R - Histograms

Что такое гистограмма?

Прежде чем погружаться в R, давайте поймем, что такое гистограмма. Представьте, что вы учитель (как я!), и вы хотите увидеть, как ваши ученики сдали тест. Гистограмма – это как бы столбиковая диаграмма, которая показывает распределение ваших данных. Она分组ирует ваши данные по "ячейкам" или диапазонам и показывает, сколько точек данных falls в каждую ячейку.

Начало работы с R

Сначала, запустим R! Если вы еще не установили R, перейдите на веб-сайт R Project и следуйте инструкциям по установке для вашей операционной системы.

Как только у вас будет установлен и запущен R, вы увидите консоль, где можно вводить команды. Это то место, где happens магия!

Создание вашей первой гистограммы

Давайте начнем с простого примера. Мы создадим гистограмму некоторых тестовых оценок.

# Создаем вектор тестовых оценок
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)

# Создаем гистограмму
hist(scores)

Когда вы выполните этот код, вы увидите, как появится базовая гистограмма. Pretty cool, right? Давайте разберем, что мы сделали:

  1. Мы создали вектор под названием scores с некоторыми тестовыми оценками.
  2. Мы использовали функцию hist() для создания гистограммы этих оценок.

R автоматически решил, сколько ячеек использовать и какой диапазон должна покрывать каждая ячейка. Но что, если мы хотим больше контроля над нашей гистограммой? Вот где магия R действительно сияет!

Настройка вашей гистограммы

Указание количества ячеек

Мы можем сказать R точное количество ячеек, которое хотим использовать:

hist(scores, breaks = 5)

Это создаст гистограмму с 5 ячейками. Поиграйте с разными числами и посмотрите, как это изменяет внешний вид вашей гистограммы!

Добавление заголовков и подписей

Давайте сделаем нашу гистограмму более информативной:

hist(scores,
main = "Распределение тестовых оценок",
xlab = "Оценки",
ylab = "Частота",
col = "skyblue",
border = "darkblue")

Вот что делает каждый новый параметр:

  • main: Добавляет заголовок к гистограмме
  • xlab и ylab: Подписывают оси x и y
  • col: Устанавливает цвет столбиков
  • border: Устанавливает цвет границ столбиков

Корректировка диапазона значений X и Y

Иногда вы можете захотеть сосредоточиться на определенном диапазоне значений или откорректировать масштаб вашей гистограммы. Давайте посмотрим, как это можно сделать:

hist(scores,
xlim = c(60, 100),  # Устанавливает диапазон оси x
ylim = c(0, 5),     # Устанавливает диапазон оси y
breaks = seq(60, 100, by = 5))  # Создает ячейки от 60 до 100, через 5 точек

Этот код корректирует ось x, чтобы показать оценки от 60 до 100, устанавливает ось y до 5 и создает ячейки через каждые 5 точек.

Продвинутые техники гистограмм

Теперь, когда у вас есть базовые знания, давайте рассмотрим некоторые более продвинутые техники!

Добавление кривой плотности

Кривая плотности может помочь visualize распределение ваших данных:

hist(scores,
probability = TRUE,  # Показывает плотность вместо частоты
main = "Распределение тестовых оценок с кривой плотности")

# Добавляем кривую плотности
lines(density(scores), col = "red", lwd = 2)

Этот код сначала создает гистограмму, показывающую плотность, а затем добавляет гладкую кривую плотности сверху.

Создание нескольких гистограмм

Что, если вы хотите сравнить распределения? Давайте создадим гистограммы для двух классов рядом:

par(mfrow = c(1, 2))  # Настройка сетки для рисунков 1x2

# Оценки класса A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Оценки класса A", col = "lightblue")

# Оценки класса B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Оценки класса B", col = "lightgreen")

Этот код настраивает_side-by-side сравнение двух гистограмм, позволяя легко compare распределения.

Полезные функции для гистограмм

Вот удобная таблица функций, которые мы использовали, plus несколько других, которые могут вам пригодиться:

Функция Описание
hist() Создает базовую гистограмму
breaks Указывает количество ячеек или края ячеек
main Устанавливает заголовок гистограммы
xlab, ylab Подписывают оси x и y
col Устанавливает цвет столбиков гистограммы
border Устанавливает цвет границ столбиков
xlim, ylim Устанавливают диапазон осей x и y
density() Вычисляет оценки ядерной плотности
lines() Добавляет линии к существующему рисунку
par() Устанавливает или запрашивает графические параметры

Заключение

Поздравления! Вы только что сделали свои первые шаги в мир визуализации данных с помощью гистограмм в R. Помните, что создание эффективных визуализаций – это искусство и наука. Не бойтесь экспериментировать с различными параметрами и видеть, как они влияют на ваши гистограммы.

Пока вы продолжаете свое путешествие в R, вы обнаружите, что гистограммы – это только вершина айсберга, когда дело доходит до визуализации данных. Но они отличная отправная точка, и навыки, которые вы здесь learned, помогут вам в изучении более продвинутых тем.

Продолжайте практиковаться, stay curious, и удачи в кодировании! Before you know it, вы будете тем, кто учит других о чудесах R и визуализации данных.

Credits: Image by storyset