R - Streudiagramme

Einführung

Hallo da! Willkommen auf unserer Reise in die Welt der Datenvisualisierung mit R. Heute tauchen wir tief ein in die Erstellung von Streudiagrammen mit R, einer leistungsstarken Programmiersprache, die weit verbreitet im Bereich der Statistik und Datenanalyse eingesetzt wird. Wenn Sie neu im Programmieren sind oder gerade erst mit R beginnen, keine Sorge - wir gehen langsam vor und stellen sicher, dass Sie jeden Schritt verstehen.

R - Scatterplots

Streudiagramme sind eine großartige Möglichkeit, die Beziehung zwischen zwei Variablen zu visualisieren. Sie ermöglichen es uns, zu erkennen, ob zwischen ihnen ein Muster oder eine Korrelation besteht. Zum Beispiel kann ein Streudiagramm helfen zu identifizieren, ob taller Menschen tendieren, mehr zu wiegen oder umgekehrt.

Lassen Sie uns loslegen!

Erstellung des Streudiagramms

Schritt 1: Installation und Laden von R

Bevor wir beliebige Diagramme in R erstellen können, müssen wir die notwendigen Pakete installieren und laden. Das Paket ggplot2 ist eines der beliebtesten für die Erstellung von schönen und anpassungsfähigen Diagrammen. Um es zu installieren, können Sie den folgenden Befehl in Ihrer R-Konsole verwenden:

install.packages("ggplot2")

Sobald Sie das Paket installiert haben, müssen Sie es in Ihre R-Umgebung laden. Sie müssen dies nur einmal pro Sitzung tun:

library(ggplot2)

Schritt 2: Erstellung eines Streudiagramms

Nun, da wir alles eingerichtet haben, lassen Sie uns unser erstes Streudiagramm erstellen. Wir verwenden einen integrierten Datensatz namens mtcars, der Informationen über verschiedene Automodelle enthält. Wir plotten die Meilen pro Gallone (mpg) gegen die Pferdestärke (hp).

Zunächst werfen wir einen Blick auf den Datensatz:

head(mtcars)

Dies zeigt Ihnen die ersten few Zeilen des Datensatzes und gibt Ihnen eine Vorstellung davon, wie er aussieht.

Nun erstellen wir das Streudiagramm:

ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()

Hier ist, was jeder Teil macht:

  • ggplot(data = mtcars, aes(x = hp, y = mpg)): Dies initialisiert das Diagramm mit dem mtcars Datensatz und setzt die x-Achse auf Pferdestärke und die y-Achse auf Meilen pro Gallone.
  • geom_point(): Dies fügt Punkte zum Diagramm hinzu, die auf die x- und y-Werte aus dem Datensatz basieren.

Wenn Sie diesen Code ausführen, sollten Sie ein Streudiagramm sehen, bei dem jeder Punkt ein Automodell darstellt, wobei seine Position durch seine Pferdestärke und Meilen pro Gallone bestimmt wird.

Schritt 3: Anpassung des Streudiagramms

Nun, da wir ein einfaches Streudiagramm haben, lassen Sie uns ihm etwas Pep verleihen. Wir können die Farbe der Punkte ändern, eine Titel hinzufügen und sogar die Größe der Punkte anpassen.

ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "Pferdestärke vs. Meilen pro Gallone", x = "Pferdestärke", y = "Meilen pro Gallone")

In dieser aktualisierten Version haben wir Folgendes hinzugefügt:

  • color = "blue": Dies ändert die Farbe der Punkte in Blau.
  • size = 3: Dies macht die Punkte etwas größer.
  • labs(title = ..., x = ..., y = ...): Dies fügt eine Titel und Beschriftungen für die x- und y-Achsen zum Diagramm hinzu.

Experimentieren Sie ruhig mit verschiedenen Farben und Größen, um zu sehen, wie sie das Aussehen Ihres Diagramms beeinflussen.

Streudiagramm-Matrix

Nun, da Sie wissen, wie man ein einzelnes Streudiagramm erstellt, lassen Sie uns zu etwas Fortgeschrittenerem übergehen: Streudiagramm-Matrizen. Diese sind Raster von Streudiagrammen, die es Ihnen ermöglichen, gleichzeitig mehrere Variablen zu vergleichen. Es ist, als ob Sie eine ganze Galerie individueller Streudiagramme an einem Ort hätten!

Um eine Streudiagramm-Matrix zu erstellen, verwenden wir ein anderes Paket namens GGally. Zunächst müssen Sie es installieren:

install.packages("GGally")

Und dann laden Sie es:

library(GGally)

Nun erstellen wir eine Streudiagramm-Matrix mit demselben mtcars Datensatz:

ggpairs(mtcars)

Wenn Sie diesen Code ausführen, wird eine Matrix von Streudiagrammen generiert, bei der jedes Diagramm die Beziehung zwischen zwei Variablen zeigt. Die Diagonale enthält Histogramme jeder Variablen, und die oberen und unteren Dreiecke enthalten Streudiagramme, die Paare von Variablen vergleichen.

Sie können die Streudiagramm-Matrix weiter anpassen, indem Sie Farbskalen hinzufügen, nach Kategorien facettieren und mehr. Schauen Sie sich die Dokumentation für ggpairs() an, um mehr über die verfügbaren Optionen zu erfahren.

Schlussfolgerung

Glückwunsch! Sie haben nun gelernt, wie man Streudiagramme in R mit dem Paket ggplot2 und wie man Streudiagramm-Matrizen mit dem Paket GGally erstellt. Diese Fähigkeiten sind unerlässlich für jeden, der Beziehungen zwischen Variablen in seinen Daten erkunden möchte. Denken Sie daran, Übung macht den Meister, also probieren Sie verschiedene Datensätze und Anpassungen aus, um Ihre Visualisierungsfähigkeiten zu verbessern. Viel Spaß beim Coden!

Credits: Image by storyset