R - Histogramme: Ein Leitfaden für Anfänger
Hallo da draußen, aspirierende Datenzauberer! Heute machen wir uns auf eine aufregende Reise in die Welt der Histogramme mit R. Keine Sorge, wenn du noch nie eine Zeile Code geschrieben hast – ich werde dein freundlicher Guide sein, und wir werden das Schritt für Schritt durchgehen. Am Ende dieses Tutorials wirst du wunderschöne Histogramme wie ein Profi erstellen können!
Was ist ein Histogramm?
Bevor wir uns R zuwenden, lassen Sie uns verstehen, was ein Histogramm ist. Stell dir vor, du bist ein Lehrer (wie ich!) und du möchtest sehen, wie deine Schüler bei einer Prüfung abgeschnitten haben. Ein Histogramm ist wie ein Balkendiagramm, das die Verteilung deiner Daten zeigt. Es gruppiert deine Daten in "Kisten" oder Bereiche und zeigt, wie viele Datenpunkte in jede Kiste fallen.
Erste Schritte mit R
Zuerstens, lassen Sie uns R starten! Wenn du R noch nicht installiert hast, geh zur R Projekt-Website und folge den Installationsanweisungen für dein Betriebssystem.
Sobald du R installiert und gestartet hast, siehst du eine Konsole, in der du Befehle eingeben kannst. Hier passiert die Magie!
Dein erstes Histogramm erstellen
Lassen Sie mit einem einfachen Beispiel beginnen. Wir erstellen ein Histogramm einiger Prüfungsergebnisse.
# Erstelle einen Vektor von Prüfungsergebnissen
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
# Erstelle ein Histogramm
hist(scores)
Wenn du diesen Code ausführst, siehst du ein einfaches Histogramm erscheinen. Ganz cool, oder? Lassen Sie uns aztrocken, was wir gemacht haben:
- Wir haben einen Vektor namens
scores
mit einigen Prüfungsergebnissen erstellt. - Wir haben die
hist()
Funktion verwendet, um ein Histogramm dieser Ergebnisse zu erstellen.
R hat automatisch entschieden, wie viele Kisten zu verwenden und welchen Bereich jede Kiste abdecken sollte. Aber was ist, wenn wir mehr Kontrolle über unser Histogramm haben möchten? Das ist, wo die Magie von R wirklich strahlt!
Anpassung deines Histogramms
Anzahl der Kisten angeben
Wir können R genau sagen, wie viele Kisten wir wollen:
hist(scores, breaks = 5)
Dies erstellt ein Histogramm mit 5 Kisten. Probiere verschiedene Zahlen aus und sieh, wie sich das Aussehen deines Histogramms ändert!
Hinzufügen von Titeln und Beschriftungen
Machen wir unser Histogramm informativer:
hist(scores,
main = "Verteilung der Prüfungsergebnisse",
xlab = "Punkte",
ylab = "Häufigkeit",
col = "himmelblau",
border = "dunkelblau")
Hier ist, was jeder neue Parameter macht:
-
main
: Fügt einen Titel zum Histogramm hinzu -
xlab
undylab
: Beschriften die x- und y-Achsen -
col
: Setzt die Farbe der Balken -
border
: Setzt die Farbe der Balkenränder
Anpassung des Wertebereichs von X und Y
Manchmal möchtest du dich auf einen bestimmten Wertebereich konzentrieren oder die Skala deines Histogramms anpassen. Lassen Sie uns sehen, wie wir das machen können:
hist(scores,
xlim = c(60, 100), # Setze den Wertebereich der x-Achse
ylim = c(0, 5), # Setze den Wertebereich der y-Achse
breaks = seq(60, 100, by = 5)) # Erstelle Kisten von 60 bis 100, alle 5 Punkte
Dieser Code passt die x-Achse an, um Punkte von 60 bis 100 anzuzeigen, setzt die y-Achse auf maximal 5 und erstellt Kisten alle 5 Punkte.
Fortgeschrittene Histogramm-Techniken
Nun, da du die Grundlagen drauf hast, lassen Sie uns einige fortgeschrittene Techniken erkunden!
Hinzufügen einer Dichtekurve
Eine Dichtekurve kann helfen, die Verteilung deiner Daten zu visualisieren:
hist(scores,
probability = TRUE, # Zeige Dichte anstelle von Häufigkeit
main = "Verteilung der Prüfungsergebnisse mit Dichtekurve")
# Füge Dichtekurve hinzu
lines(density(scores), col = "rot", lwd = 2)
Dieser Code erstellt zuerst ein Histogramm, das die Wahrscheinlichkeitsdichte anzeigt, und fügt dann eine glatte Dichtekurve hinzu.
Erstellen mehrerer Histogramme
Was ist, wenn du Verteilungen vergleichen möchtest? Lassen Sie uns Histogramme für zwei Klassen nebeneinander erstellen:
par(mfrow = c(1, 2)) # Richte ein 1x2 Raster für Diagramme ein
# Ergebnisse der Klasse A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Ergebnisse der Klasse A", col = "hellblau")
# Ergebnisse der Klasse B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Ergebnisse der Klasse B", col = "hellgrün")
Dieser Code richtet eine nebeneinander comparison von zwei Histogrammen ein, allowing you to easily compare the distributions.
Nützliche Histogramm-Funktionen
Hier ist eine praktische Tabelle der Funktionen, die wir verwendet haben, plus einige mehr, die du nützlich finden könntest:
Funktion | Beschreibung |
---|---|
hist() |
Erstellt ein einfaches Histogramm |
breaks |
Gibt die Anzahl der Kisten oder Kanten an |
main |
Setzt den Haupttitel des Histogramms |
xlab , ylab
|
Beschriften die x- und y-Achsen |
col |
Setzt die Farbe der Histogrammbalken |
border |
Setzt die Farbe der Balkenränder |
xlim , ylim
|
Setzen den Wertebereich der x- und y-Achsen |
density() |
Berechnet Kerndichteschätzungen |
lines() |
Fügt Linien zu einem bestehenden Diagramm hinzu |
par() |
Setzt oder abfragt graphische Parameter |
Schlussfolgerung
Glückwunsch! Du hast gerade deine ersten Schritte in die Welt der Datenvisualisierung mit R-Histogrammen gemacht. Bedenke, dass das Erstellen effektiver Visualisierungen autant Kunst wie Wissenschaft ist. Habe keine Angst, verschiedene Parameter auszuprobieren und zu sehen, wie sie dein Histogramm beeinflussen.
Bei deiner Weiterreise mit R wirst du feststellen, dass Histogramme nur die Spitze des Eisbergs bei der Datenvisualisierung sind. Aber sie sind ein hervorragender Ausgangspunkt, und die Fähigkeiten, die du hier gelernt hast, werden dir gut dienen, wenn du fortgeschrittenere Themen erkundest.
Weiter üben, bleib neugierig und viel Spaß beim Programmieren! Bereit, wirst du derjenige sein, der anderen über die Wunder von R und Datenvisualisierung erzählt.
Credits: Image by storyset