R - Lineare Regression: Ein Anfängerleitfaden

Hallo da draußen, angehende Data Scientist! Heute machen wir uns auf eine aufregende Reise in die Welt der linearen Regression mit R. Machen Sie sich keine Sorgen, wenn Sie noch nie programmiert haben – ich bin hier, um Ihnen Schritt für Schritt alles zu erklären. Am Ende dieses Tutorials werden Sie erstaunt sein, was Sie mit nur wenigen Zeilen Code erreichen können!

R - Linear Regression

Was ist Lineare Regression?

Bevor wir uns dem R-Code widmen, lassen Sie uns verstehen, was lineare Regression ist. Stellen Sie sich vor, Sie versuchen, die Anzahl der Eiscreme-Verkäufe basierend auf der Außentemperatur vorherzusagen. Sie könnten bemerken, dass Ihre Eiscreme-Verkäufe mit steigender Temperatur zunehmen. Lineare Regression hilft uns, diese Beziehung mathematisch zu finden und zu beschreiben.

Schritte zur Durchführung einer Regression

Nun zerlegen wir den Prozess der Durchführung einer linearen Regression in R in handhabbare Schritte:

1. Vorbereitung Ihrer Daten

Zuerst brauchen wir einige Daten, mit denen wir arbeiten können. In R können wir einen eigenen Datensatz erstellen oder einen importieren. Lassen Sie uns einen einfachen Datensatz über Temperatur und Eiscreme-Verkäufe erstellen:

temperature <- c(20, 22, 25, 27, 30, 32, 35)
ice_cream_sales <- c(50, 55, 65, 70, 80, 85, 95)

# Zusammenführen in einen Datensatz
ice_cream_data <- data.frame(temperature, ice_cream_sales)

# Daten anzeigen
print(ice_cream_data)

Wenn Sie diesen Code ausführen, sehen Sie eine saubere Tabelle mit unseren Temperatur- und Eiscreme-Verkaufsdaten. Cool, oder?

2. Visualisierung Ihrer Daten

Bevor wir eine Analyse starten, ist es immer eine gute Idee, unsere Daten anzusehen. R macht dies mit seinen Plot-Funktionen super einfach:

plot(ice_cream_data$temperature, ice_cream_data$ice_cream_sales,
main = "Eiscreme-Verkäufe vs. Temperatur",
xlab = "Temperatur (°C)", ylab = "Eiscreme-Verkäufe",
pch = 19, col = "blue")

Dieser Code erstellt ein Scatter Plot unserer Daten. Das Argument main setzt den Titel, xlab und ylab beschriften die Achsen, pch = 19 macht die Punkte zu festen Kreisen und col = "blue" färbt sie blau. Probieren Sie verschiedene Optionen aus – machen Sie es zu Ihrem eigenen!

3. Durchführung der Linearen Regression

Nun kommt der spannende Teil – die Durchführung der linearen Regression. In R verwenden wir die lm()-Funktion, die für "lineares Modell" steht:

ice_cream_model <- lm(ice_cream_sales ~ temperature, data = ice_cream_data)

Diese Zeile sieht einfach aus, aber sie leistet viel Arbeit im Hintergrund. Siefindet die beste passende Linie durch unsere Datenpunkte.

4. Untersuchung der Ergebnisse

Schauen wir uns an, was unser Modell herausgefunden hat:

summary(ice_cream_model)

Dieser Befehl gibt Ihnen eine detaillierte Zusammenfassung Ihres Modells. Machen Sie sich keine Sorgen, wenn einige Teile abschreckend aussehen – wir konzentrieren uns auf die wichtigsten Teile:

  • Der Abschnitt Koeffizienten zeigt den Neigungswinkel und den Schwenkpunkt unserer Linie.
  • Der R-Quadrat-Wert tells uns, wie gut unser Modell zu den Daten passt.

5. Visualisierung der Regressionslinie

Nun fügen wir unsere Regressionslinie unserem Plot hinzu:

plot(ice_cream_data$temperature, ice_cream_data$ice_cream_sales,
main = "Eiscreme-Verkäufe vs. Temperatur",
xlab = "Temperatur (°C)", ylab = "Eiscreme-Verkäufe",
pch = 19, col = "blue")

abline(ice_cream_model, col = "red")

Die abline()-Funktion fügt unsere Regressionslinie zum Plot hinzu. Ist es nicht erfreulich zu sehen, dass diese Linie durch unsere Punkte verläuft?

Die lm() Funktion: Dein neuer bester Freund

Wir haben bereits die lm()-Funktion verwendet, aber lassen Sie uns tiefer einsteigen. Diese Funktion ist das Herz der linearen Regression in R. Hier ist eine Zusammenfassung ihrer grundlegenden Struktur:

lm(formula, data)
  • formula: Dies gibt die Beziehung zwischen Ihren Variablen an. In unserem Fall war es ice_cream_sales ~ temperature.
  • data: Dies ist der Datensatz, den Sie verwenden.

Das ~-Symbol in der Formel wird als "wird modelliert als Funktion von" gelesen. Also liest unsere Formel "Eiscreme-Verkäufe werden als Funktion der Temperatur modelliert".

Die predict() Funktion: Vorhersagen treffen

Nun, da wir unser Modell haben, können wir es verwenden, um Vorhersagen zu treffen. Hier kommt die predict()-Funktion ins Spiel:

new_temperatures <- data.frame(temperature = c(23, 28, 33))
predicted_sales <- predict(ice_cream_model, newdata = new_temperatures)
print(predicted_sales)

Dieser Code predicts Eiscreme-Verkäufe für Temperaturen von 23°C, 28°C und 33°C. pretty cool, oder?

Tabelle der nützlichen Funktionen

Hier ist eine schnelle Referenztabelle der wichtigsten Funktionen, die wir verwendet haben:

Funktion Zweck Beispiel
lm() Lineare Regression durchführen lm(y ~ x, data)
summary() Detaillierte Modellergebnisse erhalten summary(model)
plot() Scatter Plot erstellen plot(x, y)
abline() Regressionslinie zum Plot hinzufügen abline(model)
predict() Vorhersagen treffen predict(model, newdata)

Erinnern Sie sich daran, Übung macht den Meister! Haben Sie keine Angst, diese Funktionen auszuprobieren und sie auf verschiedenen Datensätzen zu verwenden. Vorher wissen Sie es, werden Sie ein Profi in der linearen Regression!

Zusammenfassend ist die lineare Regression ein mächtiges Werkzeug, um Beziehungen zwischen Variablen zu verstehen und Vorhersagen zu treffen. Mit R haben Sie alle Werkzeuge, die Sie benötigen, direkt an Ihrer fingertips. Weiter erkunden, weiter lernen und vor allem: Spaß dabei haben!

Credits: Image by storyset