R - Mittelwert, Median und Modalwert

Hallo, angehende R-Programmierer! Heute tauchen wir in die Welt der deskriptiven Statistik mit R ein. Als dein freundlicher Nachbarschaftsinformatiklehrer bin ich hier, um dich durch die Konzepte von Mittelwert, Median und Modalwert zu führen. Keine Sorge, wenn du noch nie eine Zeile Code geschrieben hast – wir beginnen ganz am Anfang und arbeiten gemeinsam nach oben.

R - Mean, Median & Mode

Mittelwert

Lassen wir mit dem Mittelwert beginnen, der wahrscheinlich die häufigste Messgröße der zentralen Tendenz ist. In einfachen Worten, das ist das, was wir oft die "Average" nennen.

Grundlegende Mittelwertberechnung

Um den Mittelwert in R zu berechnen, verwenden wir die Funktion mean(). Hier ist ein einfaches Beispiel:

zahlen <- c(10, 20, 30, 40, 50)
ergebnis <- mean(zahlen)
print(ergebnis)

Dies gibt aus: 30

Lassen wir das auseinanderbrechen:

  1. Wir erstellen einen Vektor namens zahlen mit der Funktion c().
  2. Wir verwenden die Funktion mean() um den Durchschnitt dieser Zahlen zu berechnen.
  3. Wir speichern das Ergebnis in einer Variable namens ergebnis.
  4. Schließlich drucken wir das Ergebnis aus.

Mittelwert mit NA Werten

Was passiert, wenn wir fehlende Daten haben, die durch NA in R dargestellt werden? Sehen wir mal:

zahlen_mit_na <- c(10, 20, NA, 40, 50)
ergebnis_mit_na <- mean(zahlen_mit_na)
print(ergebnis_mit_na)

Dies gibt aus: NA

Uups! R gibt NA zurück, weil es nicht weiß, wie es die fehlenden Werte behandeln soll. Aber keine Sorge, wir haben eine Lösung!

Anwendung der NA Option

Wir können R mitteilen, NA-Werte zu ignorieren, indem wir die Option na.rm verwenden:

zahlen_mit_na <- c(10, 20, NA, 40, 50)
ergebnis_na_entfernt <- mean(zahlen_mit_na, na.rm = TRUE)
print(ergebnis_na_entfernt)

Dies gibt aus: 30

VIEL BESSER! Durch das Setzen von na.rm = TRUE instruieren wir R, NA-Werte vor der Mittelwertberechnung zu entfernen.

Anwendung der Trim Option

Manchmal möchten wir extreme Werte von unserer Mittelwertberechnung ausschließen. Hier kommt die trim-Option ins Spiel. Sie ermöglicht es uns, einen Prozentsatz der Werte von beiden Enden der Daten vor der Mittelwertberechnung zu kürzen.

zahlen <- c(1, 2, 3, 4, 5, 100)  # Beachte den Ausreißer 100
ergebnis_geschnitten <- mean(zahlen, trim = 0.1)
print(ergebnis_geschnitten)

Dies gibt einen Wert aus, der sich in der Nähe von 3.5 befindet.

Durch das Setzen von trim = 0.1 entfernen wir 10% der Daten von jedem Ende, bevor wir den Mittelwert berechnen. Dies hilft, den Einfluss von Ausreißern zu verringern.

Median

Der Median ist der mittlere Wert, wenn ein Datensatz von klein nach groß geordnet ist. Er ist weniger von Ausreißern betroffen als der Mittelwert.

zahlen <- c(1, 3, 5, 7, 9, 11, 13)
ergebnis_median <- median(zahlen)
print(ergebnis_median)

Dies gibt aus: 7

Die Funktion median() funktioniert ähnlich wie mean(). Sie hat ebenfalls eine na.rm-Option zur Behandlung von NA-Werten:

zahlen_mit_na <- c(1, 3, NA, 7, 9, 11, 13)
ergebnis_median_na <- median(zahlen_mit_na, na.rm = TRUE)
print(ergebnis_median_na)

Dies gibt aus: 8

Modalwert

Interessanterweise hat R keine integrierte Funktion für den Modalwert (den am häufigsten auftretenden Wert). Aber keine Sorge! Wir können unsere eigene Funktion erstellen:

get_mode <- function(v) {
uniqv <- unique(v)
uniqv[which.max(tabulate(match(v, uniqv)))]
}

zahlen <- c(1, 2, 2, 3, 3, 3, 4, 4, 5)
ergebnis_modus <- get_mode(zahlen)
print(ergebnis_modus)

Dies gibt aus: 3

Lassen wir auch das auseinanderbrechen:

  1. unique(v) holt die eindeutigen Werte im Vektor.
  2. match(v, uniqv)findet die Positionen der Übereinstimmungen.
  3. tabulate() zählt die Vorkommen.
  4. which.max()findet die Position des maximalen Counts.
  5. Wir geben den Wert an dieser Position zurück.

Zusammenfassung der Funktionen

Hier ist eine praktische Tabelle, die die Funktionen zusammenfasst, die wir gelernt haben:

Maß Funktion Optionen
Mittelwert mean() na.rm, trim
Median median() na.rm
Modalwert Custom function N/A

Denke daran, Übung macht den Meister! Probiere diese Funktionen mit verschiedenen Datensätzen aus und erkunde, wie das Ändern der Optionen die Ergebnisse beeinflusst.

Als wir den Beitrag beenden, erinnere ich mich an eine Geschichte aus meinen frühen Tagen des Lernens von R. Ich habe einmal Stunden damit verbracht, den Mittelwert eines Datensatzes zu berechnen, nur um festzustellen, dass ich die NA-Werte vergessen hatte zu entfernen. Sei nicht wie ich – überprüfe deine Daten und verwende na.rm = TRUE, wenn nötig!

Frohes Coden und möge deine statistischen Abenteuer in R voller Erkenntnisse und Aha-Momente sein!

Credits: Image by storyset