R - Multiple Regression: A Beginner's Guide

Hallo da, zukünftige R-Programmierer! Heute werden wir eine aufregende Reise in die Welt der mehrfachen Regression mit R antreten. Machen Sie sich keine Sorgen, wenn Sie noch nie eine Zeile Code geschrieben haben – ich werde Ihr freundlicher Guide an jedem Schritt des Weges sein. Am Ende dieses Tutorials werden Sie erstaunt sein, was Sie mit nur wenigen Zeilen R-Code erreichen können!

R - Multiple Regression

Was ist Multiple Regression?

Bevor wir in den Code eintauchen, lassen Sie uns verstehen, was mehrfache Regression ist. Stellen Sie sich vor, Sie versuchen, den Preis eines Hauses zu vorhersagen. Sie könnten über seine Größe nachdenken, aber das ist nicht der einzige Faktor, oder? Die Anzahl der Schlafzimmer, das Viertel und sogar das Alter des Hauses könnten alle eine Rolle spielen. Multiple Regression ist eine statistische Technik, die uns hilft zu verstehen, wie mehrere Faktoren (wir nennen sie unabhängige Variablen) ein Ergebnis (unsere abhängige Variable) beeinflussen.

Die lm()-Funktion: Dein neuer bester Freund

In R verwenden wir die lm()-Funktion, um mehrfache Regression durchzuführen. "lm" steht für "lineares Modell" und wird Ihr neuer bester Freund in der Welt der Statistik sein. Lassen Sie uns aufschlüsseln, wie man sie verwendet:

model <- lm(abhaengige_variable ~ unabhaengige_variable1 + unabhaengige_variable2 + ..., data = ihr_datensatz)

Es mag initially etwas einschüchternd aussehen, aber lassen Sie uns das auseinandernehmen:

  • model ist nur ein Name, den wir verwenden, um unsere Regressionsergebnisse zu speichern.
  • abhaengige_variable ist das, was wir vorhersagen möchten.
  • ~ ist sozusagen "wird erklärt durch" in der R-Sprache.
  • unabhaengige_variable1, unabhaengige_variable2, etc., sind unsere Prädiktoren.
  • data = ihr_datensatz tells R, wo es unsere Variablen finden kann.

Ein schrittweiser Beispiel

Lassen Sie uns gemeinsam ein echtes Beispiel durchgehen. Wir verwenden einen eingebauten Datensatz in R namens mtcars (kurz für Motor Trend Car Road Tests). Es ist ein Datensatz über verschiedene Automodelle und deren Merkmale.

Schritt 1: Unsere Daten erkunden

Zuerst werfen wir einen Blick auf unsere Daten:

head(mtcars)

Dies wird uns die ersten few Zeilen des Datensatzes anzeigen. Sie werden Spalten wie mpg (Meilen pro Gallone), cyl (Anzahl der Zylinder), disp (Verdichtung) und hp (Leistung) sehen.

Schritt 2: Unser Modell erstellen

Angenommen, wir möchten die Meilen pro Gallone (mpg) eines Autos basierend auf seinem Gewicht (wt) und seiner Leistung (hp) vorhersagen. So würden wir das tun:

auto_modell <- lm(mpg ~ wt + hp, data = mtcars)

Schritt 3: Unsere Ergebnisse verstehen

Nun schauen wir uns an, was unser Modell uns sagt:

summary(auto_modell)

Dieser Befehl wird uns eine Fülle von Informationen geben. Machen Sie sich keine Sorgen, wenn einige davon wie Kauderwelsch aussehen – wir werden uns auf die wichtigsten Teile konzentrieren:

  1. Koeffizienten: Diese erzählen uns, wie jede Variable mpg beeinflusst. Ein negativer Wert bedeutet, dass, wenn die Variable zunimmt, mpg abnimmt.
  2. R-Quadrat: Dies erzählt uns, wie gut unser Modell zu den Daten passt. Es reicht von 0 bis 1, wobei 1 eine perfekte Passung ist.
  3. p-Werte: Diese erzählen uns, ob unsere Ergebnisse statistisch signifikant sind. Im Allgemeinen suchen wir nach Werten unter 0.05.

Schritt 4: Vorhersagen treffen

Nun kommen wir zum spannenden Teil – lassen Sie uns unser Modell verwenden, um die mpg für ein Auto mit einem Gewicht von 3000 lbs und 150 PS zu vorhersagen:

neues_auto <- data.frame(wt = 3, hp = 150)
predict(auto_modell, neues_auto)

Und voilà! Sie haben gerade eine Vorhersage mit mehrfacher Regression getroffen.

Unsere Ergebnisse visualisieren

Ein Bild sagt mehr als tausend Worte, besonders in der Datenwissenschaft. Lassen Sie uns ein einfaches Diagramm erstellen, um unser Modell zu visualisieren:

plot(mtcars$wt, mtcars$mpg, main = "Gewicht vs MPG", xlab = "Gewicht", ylab = "Meilen Pro Gallone")
abline(lm(mpg ~ wt, data = mtcars), col = "rot")

Dies erstellt ein Streudiagramm von Gewicht vs. mpg und fügt unsereRegressionslinie in rot hinzu.

Häufige Methoden in der mehrfachen Regression

Hier ist eine praktische Tabelle einiger häufiger Methoden, die Sie mit Ihrem Regressionmodell verwenden könnten:

Methode Beschreibung
summary() Bietet eine detaillierte Zusammenfassung des Regressionmodells
coefficients() Gibt die Koeffizienten des Modells zurück
residuals() Zeigt die Unterschiede zwischen beobachteten und vorhergesagten Werten
predict() Macht Vorhersagen mit dem Modell
plot() Erstellt verschiedene diagnostische Diagramme
anova() Führt eine Varianzanalyse am Modell durch

Schlussfolgerung

Glückwunsch! Sie haben gerade Ihre ersten Schritte in die Welt der mehrfachen Regression mit R unternommen. Denken Sie daran, dass wie bei jeder neuen Fähigkeit Übung parfait macht. Haben Sie keine Angst, verschiedene Datensätze und Variablen auszuprobieren.

Als wir uns abschließen, erinnere ich mich an einen Schüler, der mir einmal sagte: "Ich dachte nie, dass ich mit Mathematik etwas vorhersagen könnte!" Nun, nicht nur können Sie Dinge vorhersagen, sondern Sie können es mit mehreren Faktoren gleichzeitig. Wie ist das für eine Superkraft?

Weiterschreiben, weiterlernen und vor allem: Spaß mit R haben!

Credits: Image by storyset