R - 히스토그램: 초보자 가이드
안녕하세요, 데이터 마법사 되고 싶은 분들! 오늘 우리는 R를 사용하여 히스토그램의 세계로 흥미로운 여정을 떠납니다. 코드를 한 줄도 작성해본 적이 없어도 걱정하지 마세요 - 나는 당신의 친절한 안내자가 되어, 단계별로 이를 안내할 것입니다. 이 튜토리얼이 끝나면, 당신은 프로처럼 아름다운 히스토그램을 만들 수 있을 것입니다!
히스토그램이란?
R로 뛰어들기 전에, 히스토그램이 무엇인지 이해해 보겠습니다. 상상해 보세요, 당신이 교사(나와 같이)이고 학생들이 시험에서 어떻게 성과를 내었는지 보고 싶다면. 히스토그램은 데이터의 분포를 보여주는 바 그래프와 같은东西입니다. 데이터를 "bin" 또는 범위로 그룹화하고 각 bin에 얼마나 많은 데이터 포인트가 포함되었는지 보여줍니다.
R를 시작하기
먼저, R을 켜보겠습니다! 아직 R을 설치하지 않았다면, R 프로젝트 웹사이트로 이동하여 운영 체제에 맞는 설치 지침을 따르세요.
R을 설치하고 실행하면, 명령어를 입력할 수 있는 콘솔을 보게 됩니다. 이곳에서 마법이 일어납니다!
첫 히스토그램 만들기
간단한 예제로 시작해 보겠습니다. 시험 점수의 히스토그램을 만들어 보겠습니다.
# 시험 점수 벡터 생성
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
# 히스토그램 생성
hist(scores)
이 코드를 실행하면 기본 히스토그램이 나타납니다. 멋지죠? 우리가 무엇을 했는지 분석해 보겠습니다:
-
scores
라는 벡터를 생성하여 시험 점수를 담았습니다. -
hist()
함수를 사용하여 이 점수의 히스토그램을 생성했습니다.
R은 자동으로 bin의 수와 각 bin의 범위를 결정합니다. 하지만 히스토그램에 대해 더 많은 제어를 갖고 싶다면, R의 마법이 빛을 발합니다!
히스토그램 커스터마이징
bin의 수 지정하기
R에 bin의 수를 정확히 말할 수 있습니다:
hist(scores, breaks = 5)
이렇게 하면 5개의 bin으로 히스토그램이 생성됩니다. 다른 숫자로 실험해 보고 히스토그램의 모양이 어떻게 변하는지 확인해 보세요!
제목과 레이블 추가
히스토그램을 더 정보가 풍부하게 만들어 보겠습니다:
hist(scores,
main = "시험 점수 분포",
xlab = "점수",
ylab = "빈도",
col = "하늘藍",
border = "어두운藍")
각 새로운 매개변수는 다음과 같은 기능을 합니다:
-
main
: 히스토그램에 제목을 추가합니다 -
xlab
과ylab
: x와 y 축을 레이블링합니다 -
col
: 바의 색상을 설정합니다 -
border
: 바 테두리의 색상을 설정합니다
x와 y 값의 범위 조정하기
occasionally, you might want to focus on a specific range of values or adjust the scale of your histogram. Let's see how we can do that:
hist(scores,
xlim = c(60, 100), # x축 범위 설정
ylim = c(0, 5), # y축 범위 설정
breaks = seq(60, 100, by = 5)) # 60에서 100까지 5점 간격으로 bin 생성
이 코드는 x축을 60에서 100으로 설정하고 y축을 5까지 설정하며, 60에서 100까지 5점 간격으로 bin을 생성합니다.
고급 히스토그램 기술
기본을 다 잡았으니, 더 고급 기술을 탐구해 보겠습니다!
밀도 曲선 추가하기
밀도 曲선은 데이터 분포를 시각화하는 데 도움이 됩니다:
hist(scores,
probability = TRUE, # 밀도 대신 빈도를 표시
main = "시험 점수 분포와 밀도 曲선")
# 밀도 曲선 추가
lines(density(scores), col = "적", lwd = 2)
이 코드는 밀도를 표시하는 히스토그램을 생성한 다음, 부드러운 밀도 曲선을 그 위에 추가합니다.
여러 히스토그램 생성하기
분포를 비교하고 싶다면, 두 클래스의 히스토그램을 나란히 생성해 보겠습니다:
par(mfrow = c(1, 2)) # 그래프를 1x2 그리드로 설정
# 클래스 A 점수
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "클래스 A 점수", col = " 연藍")
# 클래스 B 점수
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "클래스 B 점수", col = " 연緑")
이 코드는 두 히스토그램을 나란히 설정하여 분포를 쉽게 비교할 수 있게 합니다.
유용한 히스토그램 함수
사용한 함수와 몇 가지 더 유용한 함수를 정리한 표입니다:
함수 | 설명 |
---|---|
hist() |
기본 히스토그램 생성 |
breaks |
bin의 수 또는 bin 경계 지정 |
main |
히스토그램의 주 제목 설정 |
xlab , ylab
|
x와 y 축 레이블 설정 |
col |
히스토그램 바 색상 설정 |
border |
바 테두리 색상 설정 |
xlim , ylim
|
x와 y 축 범위 설정 |
density() |
커널 밀도 추정 계산 |
lines() |
기존 그래프에 선 추가 |
par() |
그래픽 매개변수 설정 |
결론
축하합니다! 지금까지 R 히스토그램으로 데이터 시각화의 첫 걸음을 뗐습니다. 효과적인 시각화는 예술이자 과학입니다. 다양한 매개변수를 실험해 보고 히스토그램의 모양이 어떻게 변하는지 확인해 보세요.
R의 여정을 계속하면서, 히스토그램이 데이터 시각화의 일부에 불과하다는 것을 발견할 것입니다. 하지만 이는 데이터 시각화를 시작하는 훌륭한 출발점이며, 여기서 배운 기술은 더 고급 주제를 탐구하는 데 유용하게 사용될 것입니다.
계속 연습하고, 호기심을 유지하고, 행복하게 코딩하세요! 얼마 지나지 않아 다른 사람들에게 R과 데이터 시각화의 기적을 가르치는 당신이 될 것입니다.
Credits: Image by storyset