R - Mittelwert, Median und Modalwert
Hallo, angehende R-Programmierer! Heute tauchen wir in die Welt der deskriptiven Statistik mit R ein. Als dein freundlicher Nachbarschaftsinformatiklehrer bin ich hier, um dich durch die Konzepte von Mittelwert, Median und Modalwert zu führen. Keine Sorge, wenn du noch nie eine Zeile Code geschrieben hast – wir beginnen ganz am Anfang und arbeiten gemeinsam nach oben.
Mittelwert
Lassen wir mit dem Mittelwert beginnen, der wahrscheinlich die häufigste Messgröße der zentralen Tendenz ist. In einfachen Worten, das ist das, was wir oft die "Average" nennen.
Grundlegende Mittelwertberechnung
Um den Mittelwert in R zu berechnen, verwenden wir die Funktion mean()
. Hier ist ein einfaches Beispiel:
zahlen <- c(10, 20, 30, 40, 50)
ergebnis <- mean(zahlen)
print(ergebnis)
Dies gibt aus: 30
Lassen wir das auseinanderbrechen:
- Wir erstellen einen Vektor namens
zahlen
mit der Funktionc()
. - Wir verwenden die Funktion
mean()
um den Durchschnitt dieser Zahlen zu berechnen. - Wir speichern das Ergebnis in einer Variable namens
ergebnis
. - Schließlich drucken wir das Ergebnis aus.
Mittelwert mit NA Werten
Was passiert, wenn wir fehlende Daten haben, die durch NA
in R dargestellt werden? Sehen wir mal:
zahlen_mit_na <- c(10, 20, NA, 40, 50)
ergebnis_mit_na <- mean(zahlen_mit_na)
print(ergebnis_mit_na)
Dies gibt aus: NA
Uups! R gibt NA
zurück, weil es nicht weiß, wie es die fehlenden Werte behandeln soll. Aber keine Sorge, wir haben eine Lösung!
Anwendung der NA Option
Wir können R mitteilen, NA-Werte zu ignorieren, indem wir die Option na.rm
verwenden:
zahlen_mit_na <- c(10, 20, NA, 40, 50)
ergebnis_na_entfernt <- mean(zahlen_mit_na, na.rm = TRUE)
print(ergebnis_na_entfernt)
Dies gibt aus: 30
VIEL BESSER! Durch das Setzen von na.rm = TRUE
instruieren wir R, NA-Werte vor der Mittelwertberechnung zu entfernen.
Anwendung der Trim Option
Manchmal möchten wir extreme Werte von unserer Mittelwertberechnung ausschließen. Hier kommt die trim
-Option ins Spiel. Sie ermöglicht es uns, einen Prozentsatz der Werte von beiden Enden der Daten vor der Mittelwertberechnung zu kürzen.
zahlen <- c(1, 2, 3, 4, 5, 100) # Beachte den Ausreißer 100
ergebnis_geschnitten <- mean(zahlen, trim = 0.1)
print(ergebnis_geschnitten)
Dies gibt einen Wert aus, der sich in der Nähe von 3.5
befindet.
Durch das Setzen von trim = 0.1
entfernen wir 10% der Daten von jedem Ende, bevor wir den Mittelwert berechnen. Dies hilft, den Einfluss von Ausreißern zu verringern.
Median
Der Median ist der mittlere Wert, wenn ein Datensatz von klein nach groß geordnet ist. Er ist weniger von Ausreißern betroffen als der Mittelwert.
zahlen <- c(1, 3, 5, 7, 9, 11, 13)
ergebnis_median <- median(zahlen)
print(ergebnis_median)
Dies gibt aus: 7
Die Funktion median()
funktioniert ähnlich wie mean()
. Sie hat ebenfalls eine na.rm
-Option zur Behandlung von NA-Werten:
zahlen_mit_na <- c(1, 3, NA, 7, 9, 11, 13)
ergebnis_median_na <- median(zahlen_mit_na, na.rm = TRUE)
print(ergebnis_median_na)
Dies gibt aus: 8
Modalwert
Interessanterweise hat R keine integrierte Funktion für den Modalwert (den am häufigsten auftretenden Wert). Aber keine Sorge! Wir können unsere eigene Funktion erstellen:
get_mode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}
zahlen <- c(1, 2, 2, 3, 3, 3, 4, 4, 5)
ergebnis_modus <- get_mode(zahlen)
print(ergebnis_modus)
Dies gibt aus: 3
Lassen wir auch das auseinanderbrechen:
-
unique(v)
holt die eindeutigen Werte im Vektor. -
match(v, uniqv)
findet die Positionen der Übereinstimmungen. -
tabulate()
zählt die Vorkommen. -
which.max()
findet die Position des maximalen Counts. - Wir geben den Wert an dieser Position zurück.
Zusammenfassung der Funktionen
Hier ist eine praktische Tabelle, die die Funktionen zusammenfasst, die wir gelernt haben:
Maß | Funktion | Optionen |
---|---|---|
Mittelwert | mean() | na.rm, trim |
Median | median() | na.rm |
Modalwert | Custom function | N/A |
Denke daran, Übung macht den Meister! Probiere diese Funktionen mit verschiedenen Datensätzen aus und erkunde, wie das Ändern der Optionen die Ergebnisse beeinflusst.
Als wir den Beitrag beenden, erinnere ich mich an eine Geschichte aus meinen frühen Tagen des Lernens von R. Ich habe einmal Stunden damit verbracht, den Mittelwert eines Datensatzes zu berechnen, nur um festzustellen, dass ich die NA-Werte vergessen hatte zu entfernen. Sei nicht wie ich – überprüfe deine Daten und verwende na.rm = TRUE
, wenn nötig!
Frohes Coden und möge deine statistischen Abenteuer in R voller Erkenntnisse und Aha-Momente sein!
Credits: Image by storyset