R - Гистограммы: Путеводитель для начинающих
Здравствуйте, стремящиеся к знаниям данные маги! Сегодня мы отправимся в увлекательное путешествие в мир гистограмм с использованием R. Не волнуйтесь, если вы никогда раньше не писали ни строчки кода – я буду вашим доброжелательным проводником, и мы будем двигаться шаг за шагом. К концу этого руководства вы будете создавать красивые гистограммы, как профи!
Что такое гистограмма?
Прежде чем погружаться в R, давайте поймем, что такое гистограмма. Представьте, что вы учитель (как я!), и вы хотите увидеть, как ваши ученики сдали тест. Гистограмма – это как бы столбиковая диаграмма, которая показывает распределение ваших данных. Она分组ирует ваши данные по "ячейкам" или диапазонам и показывает, сколько точек данных falls в каждую ячейку.
Начало работы с R
Сначала, запустим R! Если вы еще не установили R, перейдите на веб-сайт R Project и следуйте инструкциям по установке для вашей операционной системы.
Как только у вас будет установлен и запущен R, вы увидите консоль, где можно вводить команды. Это то место, где happens магия!
Создание вашей первой гистограммы
Давайте начнем с простого примера. Мы создадим гистограмму некоторых тестовых оценок.
# Создаем вектор тестовых оценок
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
# Создаем гистограмму
hist(scores)
Когда вы выполните этот код, вы увидите, как появится базовая гистограмма. Pretty cool, right? Давайте разберем, что мы сделали:
- Мы создали вектор под названием
scores
с некоторыми тестовыми оценками. - Мы использовали функцию
hist()
для создания гистограммы этих оценок.
R автоматически решил, сколько ячеек использовать и какой диапазон должна покрывать каждая ячейка. Но что, если мы хотим больше контроля над нашей гистограммой? Вот где магия R действительно сияет!
Настройка вашей гистограммы
Указание количества ячеек
Мы можем сказать R точное количество ячеек, которое хотим использовать:
hist(scores, breaks = 5)
Это создаст гистограмму с 5 ячейками. Поиграйте с разными числами и посмотрите, как это изменяет внешний вид вашей гистограммы!
Добавление заголовков и подписей
Давайте сделаем нашу гистограмму более информативной:
hist(scores,
main = "Распределение тестовых оценок",
xlab = "Оценки",
ylab = "Частота",
col = "skyblue",
border = "darkblue")
Вот что делает каждый новый параметр:
-
main
: Добавляет заголовок к гистограмме -
xlab
иylab
: Подписывают оси x и y -
col
: Устанавливает цвет столбиков -
border
: Устанавливает цвет границ столбиков
Корректировка диапазона значений X и Y
Иногда вы можете захотеть сосредоточиться на определенном диапазоне значений или откорректировать масштаб вашей гистограммы. Давайте посмотрим, как это можно сделать:
hist(scores,
xlim = c(60, 100), # Устанавливает диапазон оси x
ylim = c(0, 5), # Устанавливает диапазон оси y
breaks = seq(60, 100, by = 5)) # Создает ячейки от 60 до 100, через 5 точек
Этот код корректирует ось x, чтобы показать оценки от 60 до 100, устанавливает ось y до 5 и создает ячейки через каждые 5 точек.
Продвинутые техники гистограмм
Теперь, когда у вас есть базовые знания, давайте рассмотрим некоторые более продвинутые техники!
Добавление кривой плотности
Кривая плотности может помочь visualize распределение ваших данных:
hist(scores,
probability = TRUE, # Показывает плотность вместо частоты
main = "Распределение тестовых оценок с кривой плотности")
# Добавляем кривую плотности
lines(density(scores), col = "red", lwd = 2)
Этот код сначала создает гистограмму, показывающую плотность, а затем добавляет гладкую кривую плотности сверху.
Создание нескольких гистограмм
Что, если вы хотите сравнить распределения? Давайте создадим гистограммы для двух классов рядом:
par(mfrow = c(1, 2)) # Настройка сетки для рисунков 1x2
# Оценки класса A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Оценки класса A", col = "lightblue")
# Оценки класса B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Оценки класса B", col = "lightgreen")
Этот код настраивает_side-by-side сравнение двух гистограмм, позволяя легко compare распределения.
Полезные функции для гистограмм
Вот удобная таблица функций, которые мы использовали, plus несколько других, которые могут вам пригодиться:
Функция | Описание |
---|---|
hist() |
Создает базовую гистограмму |
breaks |
Указывает количество ячеек или края ячеек |
main |
Устанавливает заголовок гистограммы |
xlab , ylab
|
Подписывают оси x и y |
col |
Устанавливает цвет столбиков гистограммы |
border |
Устанавливает цвет границ столбиков |
xlim , ylim
|
Устанавливают диапазон осей x и y |
density() |
Вычисляет оценки ядерной плотности |
lines() |
Добавляет линии к существующему рисунку |
par() |
Устанавливает или запрашивает графические параметры |
Заключение
Поздравления! Вы только что сделали свои первые шаги в мир визуализации данных с помощью гистограмм в R. Помните, что создание эффективных визуализаций – это искусство и наука. Не бойтесь экспериментировать с различными параметрами и видеть, как они влияют на ваши гистограммы.
Пока вы продолжаете свое путешествие в R, вы обнаружите, что гистограммы – это только вершина айсберга, когда дело доходит до визуализации данных. Но они отличная отправная точка, и навыки, которые вы здесь learned, помогут вам в изучении более продвинутых тем.
Продолжайте практиковаться, stay curious, и удачи в кодировании! Before you know it, вы будете тем, кто учит других о чудесах R и визуализации данных.
Credits: Image by storyset