R - 산점도 그리기

소개

안녕하세요! R를 사용한 데이터 시각화의 세계로 여러분을 초대합니다. 오늘은 R을 사용하여 산점도를 만드는 방법을 깊이 있게 탐구해보겠습니다. R은 통계와 데이터 분석 분야에서 널리 사용되는 강력한 프로그래밍 언어입니다. 프로그래밍이 처음이거나 R를 시작한 지 얼마 안되신다면 걱정 마세요— 우리는 천천히 진행하며 모든 단계를 이해하도록 하겠습니다.

R - Scatterplots

산점도는 두 변수 간의 관계를 시각화하는 훌륭한 방법입니다. 그들이 서로 간에 패턴이나 상관관계가 있는지 확인할 수 있습니다. 예를 들어, 사람들의 키와 체중 데이터가 있다면, 산점도를 통해 더 키가 큰 사람들이 더 무겨울 가능성이 있는지 아니면 그 반대인지 확인할 수 있습니다.

시작해보겠습니다!

산점도 생성

단계 1: R과 패키지 설치 및 로드

R에서 그래프를 생성하기 전에 필요한 패키지를 설치하고 로드해야 합니다. ggplot2 패키지는 아름답고 사용자 정의 가능한 그래프를 만드는 데 가장 인기 있는 패키지 중 하나입니다. 설치는 다음 명령어를 R 콘솔에서 사용할 수 있습니다:

install.packages("ggplot2")

패키지를 설치한 후, R 환경에 로드해야 합니다. 세션 마다 한 번만 로드하면 됩니다:

library(ggplot2)

단계 2: 산점도 생성

이제 모든 준비가 완료되었으므로 첫 번째 산점도를 생성해보겠습니다. 다양한 차 모델에 대한 정보를 포함한 내장 데이터셋 mtcars를 사용할 것입니다. 마일 당 가스 소모량(mpg)을 마력(hp)에 대하여 그래프로 그리겠습니다.

먼저 데이터셋을 살펴보겠습니다:

head(mtcars)

이 명령어는 데이터셋의 첫 몇 행을 보여주며, 데이터의 모양을 이해하는 데 도움이 됩니다.

이제 산점도를 생성해보겠습니다:

ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()

각 부분의 기능은 다음과 같습니다:

  • ggplot(data = mtcars, aes(x = hp, y = mpg)): mtcars 데이터셋을 사용하여 산점도를 초기화하고 x축을 마력, y축을 마일 당 가스 소모량으로 설정합니다.
  • geom_point(): 데이터셋의 x와 y 값에 기반하여 점을 그래프에 추가합니다.

이 코드를 실행하면 각 점이 차 모델을 나타내며, 그 위치는 마력과 마일 당 가스 소모량에 따라 결정됩니다.

단계 3: 산점도 사용자 정의

이제 기본 산점도를 만들었으므로 그래프에 약간의 매력을 더해보겠습니다. 점의 색상을 변경하고, 제목을 추가하며, 점의 크기를 조정할 수 있습니다.

ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "마력 vs. 마일 당 가스 소모량", x = "마력", y = "마일 당 가스 소모량")

이 갱신된 버전에서 추가된 내용은 다음과 같습니다:

  • color = "blue": 점의 색상을 파랑으로 변경합니다.
  • size = 3: 점의 크기를 약간 크게 만듭니다.
  • labs(title = ..., x = ..., y = ...): 그래프에 제목을 추가하고 x축 및 y축을 레이블링합니다.

다양한 색상과 크기를 실험하여 그래프의 외관이 어떻게 변하는지 확인해보세요.

산점도 매트릭스

이제 단일 산점도를 생성하는 방법을 알고 있으므로, 약간 더 복잡한 것으로 이동해보겠습니다: 산점도 매트릭스. 이는 여러 변수를 동시에 비교할 수 있는 산점도 그리드입니다. 하나의 갤러리에서 모든 개별 산점도를 볼 수 있는 것과 같습니다!

산점도 매트릭스를 생성하기 위해 GGally 패키지를 사용할 것입니다. 먼저 설치합니다:

install.packages("GGally")

그런 다음 로드합니다:

library(GGally)

이제 같은 mtcars 데이터셋을 사용하여 산점도 매트릭스를 생성해보겠습니다:

ggpairs(mtcars)

이 코드를 실행하면 각 변수 쌍 간의 관계를 보여주는 산점도 매트릭스가 생성됩니다. 대각선에는 각 변수의 히스토그램이 있고, 상단 및 하단 삼각형에는 변수 쌍 간의 산점도가 있습니다.

산점도 매트릭스를 더 사용자 정의할 수 있습니다. 색상 척도를 추가하고, 카테고리별로 분할하고 더 많은 기능을 추가할 수 있습니다. ggpairs()의 문서를 확인하여 모든 가능한 옵션을 배워보세요.

결론

축하합니다! 이제 ggplot2 패키지를 사용하여 R에서 산점도를 생성하고, GGally 패키지를 사용하여 산점도 매트릭스를 생성하는 방법을 배웠습니다. 이러한 기술은 데이터에서 변수 간의 관계를 탐구하는 데 필수적입니다. 기억하시라, 연습이 완벽을 만들어낸다. 다양한 데이터셋과 사용자 정의를 시도하여 시각화 기술을 향상시키세요. 행복한 코딩을!

Credits: Image by storyset