R - Histogramme: Ein Leitfaden für Anfänger

Hallo da draußen, aspirierende Datenzauberer! Heute machen wir uns auf eine aufregende Reise in die Welt der Histogramme mit R. Keine Sorge, wenn du noch nie eine Zeile Code geschrieben hast – ich werde dein freundlicher Guide sein, und wir werden das Schritt für Schritt durchgehen. Am Ende dieses Tutorials wirst du wunderschöne Histogramme wie ein Profi erstellen können!

R - Histograms

Was ist ein Histogramm?

Bevor wir uns R zuwenden, lassen Sie uns verstehen, was ein Histogramm ist. Stell dir vor, du bist ein Lehrer (wie ich!) und du möchtest sehen, wie deine Schüler bei einer Prüfung abgeschnitten haben. Ein Histogramm ist wie ein Balkendiagramm, das die Verteilung deiner Daten zeigt. Es gruppiert deine Daten in "Kisten" oder Bereiche und zeigt, wie viele Datenpunkte in jede Kiste fallen.

Erste Schritte mit R

Zuerstens, lassen Sie uns R starten! Wenn du R noch nicht installiert hast, geh zur R Projekt-Website und folge den Installationsanweisungen für dein Betriebssystem.

Sobald du R installiert und gestartet hast, siehst du eine Konsole, in der du Befehle eingeben kannst. Hier passiert die Magie!

Dein erstes Histogramm erstellen

Lassen Sie mit einem einfachen Beispiel beginnen. Wir erstellen ein Histogramm einiger Prüfungsergebnisse.

# Erstelle einen Vektor von Prüfungsergebnissen
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)

# Erstelle ein Histogramm
hist(scores)

Wenn du diesen Code ausführst, siehst du ein einfaches Histogramm erscheinen. Ganz cool, oder? Lassen Sie uns aztrocken, was wir gemacht haben:

  1. Wir haben einen Vektor namens scores mit einigen Prüfungsergebnissen erstellt.
  2. Wir haben die hist() Funktion verwendet, um ein Histogramm dieser Ergebnisse zu erstellen.

R hat automatisch entschieden, wie viele Kisten zu verwenden und welchen Bereich jede Kiste abdecken sollte. Aber was ist, wenn wir mehr Kontrolle über unser Histogramm haben möchten? Das ist, wo die Magie von R wirklich strahlt!

Anpassung deines Histogramms

Anzahl der Kisten angeben

Wir können R genau sagen, wie viele Kisten wir wollen:

hist(scores, breaks = 5)

Dies erstellt ein Histogramm mit 5 Kisten. Probiere verschiedene Zahlen aus und sieh, wie sich das Aussehen deines Histogramms ändert!

Hinzufügen von Titeln und Beschriftungen

Machen wir unser Histogramm informativer:

hist(scores,
main = "Verteilung der Prüfungsergebnisse",
xlab = "Punkte",
ylab = "Häufigkeit",
col = "himmelblau",
border = "dunkelblau")

Hier ist, was jeder neue Parameter macht:

  • main: Fügt einen Titel zum Histogramm hinzu
  • xlab und ylab: Beschriften die x- und y-Achsen
  • col: Setzt die Farbe der Balken
  • border: Setzt die Farbe der Balkenränder

Anpassung des Wertebereichs von X und Y

Manchmal möchtest du dich auf einen bestimmten Wertebereich konzentrieren oder die Skala deines Histogramms anpassen. Lassen Sie uns sehen, wie wir das machen können:

hist(scores,
xlim = c(60, 100),  # Setze den Wertebereich der x-Achse
ylim = c(0, 5),     # Setze den Wertebereich der y-Achse
breaks = seq(60, 100, by = 5))  # Erstelle Kisten von 60 bis 100, alle 5 Punkte

Dieser Code passt die x-Achse an, um Punkte von 60 bis 100 anzuzeigen, setzt die y-Achse auf maximal 5 und erstellt Kisten alle 5 Punkte.

Fortgeschrittene Histogramm-Techniken

Nun, da du die Grundlagen drauf hast, lassen Sie uns einige fortgeschrittene Techniken erkunden!

Hinzufügen einer Dichtekurve

Eine Dichtekurve kann helfen, die Verteilung deiner Daten zu visualisieren:

hist(scores,
probability = TRUE,  # Zeige Dichte anstelle von Häufigkeit
main = "Verteilung der Prüfungsergebnisse mit Dichtekurve")

# Füge Dichtekurve hinzu
lines(density(scores), col = "rot", lwd = 2)

Dieser Code erstellt zuerst ein Histogramm, das die Wahrscheinlichkeitsdichte anzeigt, und fügt dann eine glatte Dichtekurve hinzu.

Erstellen mehrerer Histogramme

Was ist, wenn du Verteilungen vergleichen möchtest? Lassen Sie uns Histogramme für zwei Klassen nebeneinander erstellen:

par(mfrow = c(1, 2))  # Richte ein 1x2 Raster für Diagramme ein

# Ergebnisse der Klasse A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Ergebnisse der Klasse A", col = "hellblau")

# Ergebnisse der Klasse B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Ergebnisse der Klasse B", col = "hellgrün")

Dieser Code richtet eine nebeneinander comparison von zwei Histogrammen ein, allowing you to easily compare the distributions.

Nützliche Histogramm-Funktionen

Hier ist eine praktische Tabelle der Funktionen, die wir verwendet haben, plus einige mehr, die du nützlich finden könntest:

Funktion Beschreibung
hist() Erstellt ein einfaches Histogramm
breaks Gibt die Anzahl der Kisten oder Kanten an
main Setzt den Haupttitel des Histogramms
xlab, ylab Beschriften die x- und y-Achsen
col Setzt die Farbe der Histogrammbalken
border Setzt die Farbe der Balkenränder
xlim, ylim Setzen den Wertebereich der x- und y-Achsen
density() Berechnet Kerndichteschätzungen
lines() Fügt Linien zu einem bestehenden Diagramm hinzu
par() Setzt oder abfragt graphische Parameter

Schlussfolgerung

Glückwunsch! Du hast gerade deine ersten Schritte in die Welt der Datenvisualisierung mit R-Histogrammen gemacht. Bedenke, dass das Erstellen effektiver Visualisierungen autant Kunst wie Wissenschaft ist. Habe keine Angst, verschiedene Parameter auszuprobieren und zu sehen, wie sie dein Histogramm beeinflussen.

Bei deiner Weiterreise mit R wirst du feststellen, dass Histogramme nur die Spitze des Eisbergs bei der Datenvisualisierung sind. Aber sie sind ein hervorragender Ausgangspunkt, und die Fähigkeiten, die du hier gelernt hast, werden dir gut dienen, wenn du fortgeschrittenere Themen erkundest.

Weiter üben, bleib neugierig und viel Spaß beim Programmieren! Bereit, wirst du derjenige sein, der anderen über die Wunder von R und Datenvisualisierung erzählt.

Credits: Image by storyset