R - Boxplots: Ein Anfängerleitfaden zur Visualisierung der Datenverteilung

Hallo da draußen, aspirierende Datenzauberer! Heute begeben wir uns auf eine aufregende Reise in die Welt der Boxplots mit R. Machen Sie sich keine Sorgen, wenn Sie noch nie kodiert haben – ich werde Ihr freundlicher Guide sein, und wir gehen das Schritt für Schritt durch. Am Ende dieses Tutorials werden Sie wunderschöne Boxplots wie ein Profi erstellen können!

R - Boxplots

Was ist ein Boxplot?

Bevor wir uns in den Code stürzen, lassen Sie uns verstehen, was ein Boxplot ist. Stellen Sie sich vor, Sie versuchen, die Körpergrößen aller Schüler in Ihrer Klasse zu zusammenfassen. Ein Boxplot ist wie eine schlaue kleine Box, die Ihnen den Verlauf dieser Daten auf einen Blick zeigt. Es ist eine großartige Möglichkeit, die Median, Quartile und jegliche Ausreißer in Ihren Daten zu sehen.

Erstellen Ihres ersten Boxplots

Einrichten Ihrer R-Umgebung

Zuerst einmal, lassen Sie uns sicherstellen, dass wir R bereit haben. Wenn Sie R noch nicht installiert haben, gehen Sie auf die offizielle R-Website und befolgen Sie die Installationsanweisungen für Ihr Betriebssystem.

Sobald Sie R installiert haben, öffnen Sie Ihre R-Konsole oder RStudio, falls Sie das verwenden. Wir sind bereit, einige Boxplots zu erstellen!

Grundlegende Boxplot-Syntax

Die grundlegende Syntax zur Erstellung eines Boxplots in R ist erstaunlich einfach. Sie sieht so aus:

boxplot(data)

Lassen Sie uns das mit einigen realen Daten ausprobieren. Wir verwenden den eingebauten mtcars-Datensatz, der Informationen über verschiedene Automodelle enthält.

# Erstellen eines grundlegenden Boxplots der Auto-Kilometerleistung
boxplot(mtcars$mpg)

Wenn Sie diesen Code ausführen, werden Sie ein Boxplot sehen. Lassen Sie uns das, was Sie sehen, auseinandernehmen:

  • Die dicke schwarze Linie in der Mitte der Box ist der Median.
  • Die Unterseite der Box repräsentiert das erste Quartil (25% der Daten liegen unter diesem Punkt).
  • Die Oberseite der Box repräsentiert das dritte Quartil (75% der Daten liegen unter diesem Punkt).
  • Die Bärte (die Linien, die von der Box abgehen) zeigen den Datenbereich.
  • Jegliche Punkte außerhalb der Bärte gelten als Ausreißer.

Hinzufügen von Farbe und Beschriftungen

Nun, lassen Sie uns unseren Boxplot ein wenig informativer und visuell ansprechender gestalten:

# Erstellen eines detaillierteren Boxplots
boxplot(mtcars$mpg,
main="Verteilung der Auto-Kilometerleistung",
ylab="Meilen pro Gallone",
col="hellblau",
border="dunkelblau")

In diesem Beispiel:

  • main fügt eine Titelzeile zu unserem Diagramm hinzu.
  • ylab beschriftet die y-Achse.
  • col füllt die Box mit einer hellblauen Farbe.
  • border macht den Rand der Box dunkelblau.

Vergleichen mehrerer Gruppen

Eine der Stärken von Boxplots ist die Fähigkeit, verschiedene Gruppen nebeneinander zu vergleichen. Lassen Sie uns die Kilometerleistung von Autos mit unterschiedlicher Anzahl von Zylindern vergleichen:

# Kilometerleistung für unterschiedliche Zylinderzahlen vergleichen
boxplot(mpg ~ cyl, data=mtcars,
main="Auto-Kilometerleistung nach Zylinderzahl",
xlab="Anzahl der Zylinder",
ylab="Meilen pro Gallone",
col=c("hellgrün", "hellblau", "pink"))

Hier verwenden wir die Formelnotation mpg ~ cyl, die R anweist, Boxplots von mpg für jede eindeutige cyl-Wert zu erstellen. Wir haben auch unterschiedliche Farben für jede Gruppe hinzugefügt.

Boxplot mit Ausnehmung

Nun, da wir die Grundlagen beherrschen, lassen Sie uns unseren Boxplots mit Ausnehmungen eine kleine Eleganz hinzufügen.

Was ist eine Ausnehmung?

Eine Ausnehmung ist eine kleine Einkerbung an den Seiten der Box. Sie ist nicht nur für das Aussehen da – sie hilft uns actually, die Mediane zwischen Gruppen zu vergleichen. Wenn die Ausnehmungen von zwei Boxen nicht überlappen, ist es ein starkes Indiz dafür, dass die Mediane dieser Gruppen unterschiedlich sind.

Erstellen eines ausgeklügelten Boxplots

Lassen Sie uns unser vorheriges Beispiel um Ausnehmungen erweitern:

# Erstellen eines Boxplots mit Ausnehmungen
boxplot(mpg ~ cyl, data=mtcars,
main="Auto-Kilometerleistung nach Zylinderzahl",
xlab="Anzahl der Zylinder",
ylab="Meilen pro Gallone",
col=c("hellgrün", "hellblau", "pink"),
notch=TRUE)

Der einzige neue Parameter hier ist notch=TRUE. Diese einfache Ergänzung gibt uns die informativen Ausnehmungen.

Interpretieren der ausgeklügelten Boxplots

Schauen Sie genauer auf die Ausnehmungen. Wenn die Ausnehmungen von zwei Boxen nicht überlappen, können wir sicher sein, dass die wahren Mediane dieser Gruppen unterschiedlich sind. Dies ist eine schnelle visuelle Möglichkeit, signifikante Unterschiede zwischen Gruppen zu erkennen!

Anpassung Ihrer Boxplots

Nun, da Sie die Grundlagen draufhaben, lassen Sie uns einige Möglichkeiten anschauen, um Ihre Boxplots noch informativer und visuell ansprechender zu gestalten.

Hinzufügen individueller Datenpunkte

Manchmal ist es nützlich, die tatsächlichen Datenpunkte neben dem Boxplot zu sehen. Wir können das mit der jitter-Funktion tun:

# Boxplot mit individuellen Punkten
boxplot(mpg ~ cyl, data=mtcars,
main="Auto-Kilometerleistung nach Zylinderzahl",
xlab="Anzahl der Zylinder",
ylab="Meilen pro Gallone",
col=c("hellgrün", "hellblau", "pink"),
notch=TRUE)

# Hinzufügen von gerüttelten Punkten
stripchart(mpg ~ cyl, data=mtcars,
method="jitter",
vertical=TRUE,
add=TRUE,
pch=20,
col="dunkelgrau")

Dieser Code erstellt zuerst den Boxplot und Overlayt dann die individuellen Datenpunkte. Der Parameter pch=20 macht die Punkte kleine Kreise, und col="dunkelgrau" färbt sie dunkelgrau.

Ändern der Ausreißerdarstellung

Standardmäßig werden Ausreißer in Boxplots als einfache Punkte angezeigt. Wir können ihre Darstellung ändern:

# Anpassung der Ausreißerdarstellung
boxplot(mpg ~ cyl, data=mtcars,
main="Auto-Kilometerleistung nach Zylinderzahl",
xlab="Anzahl der Zylinder",
ylab="Meilen pro Gallone",
col=c("hellgrün", "hellblau", "pink"),
notch=TRUE,
outpch=8,  # Sternförmige Ausreißerpunkte
outcol="rot")  # Rote Ausreißer

Hier ändert outpch=8 die Ausreißerpunkte zu Sternen, und outcol="rot" färbt sie rot.

Schlussfolgerung

Glückwunsch! Sie haben gerade gelernt, wie man Boxplots in R erstellt und anpasst. Von grundlegenden Diagrammen bis hin zu ausgeklügelten Vergleichen und sogar dem Hinzufügen individueller Datenpunkte haben Sie nun ein mächtiges Werkzeug in Ihrem Datenvisualisierungswerkzeugkasten.

Erinnern Sie sich daran, der Schlüssel zum Beherrschen von Boxplots (und R im Allgemeinen) ist die Übung. Versuchen Sie, Boxplots mit verschiedenen Datensätzen zu erstellen, experimentieren Sie mit Farben und Stilen und vor allem: haben Sie Spaß dabei!

Hier ist eine schnelle Referenztabelle der Boxplot-Parameter, die wir behandelt haben:

Parameter Beschreibung Beispiel
main Haupttitel des Diagramms main="Mein Boxplot"
xlab Beschriftung der x-Achse xlab="Gruppen"
ylab Beschriftung der y-Achse ylab="Werte"
col Füllfarbe der Boxen col="hellblau"
border Farbe der Boxränder border="dunkelblau"
notch Hinzufügen von Ausnehmungen zu den Boxen notch=TRUE
outpch Form der Ausreißerpunkte outpch=8
outcol Farbe der Ausreißerpunkte outcol="rot"

Viel Spaß beim Plotten und möge Ihre Daten stets schön verpackt sein!

Credits: Image by storyset