R - Data Frames: Ein Anfängerleitfaden

Hallo da draußen, zukünftige R-Programmierer! Heute machen wir uns auf eine aufregende Reise in die Welt der Data Frames in R. Keine Sorge, wenn du noch nie programmiert hast – ich werde dein freundlicher Guide sein, und wir gehen das Schritt für Schritt durch. Am Ende dieses Tutorials wirst du Datenframes wie ein Profi manipulieren können!

R - Data Frames

Was sind Data Frames?

Bevor wir eintauchen, lassen wir uns verstehen, was Datenframes sind. Stell dir eine Tabelle mit Zeilen und Spalten vor – das ist im Wesentlichen, was ein Datenframe in R ist. Es ist eine zweidimensionale Tabelle, in der jede Spalte verschiedene Datentypen enthalten kann (wie Zahlen, Text oder Daten), und jede Zeile stellt einen individuellen Datensatz dar.

Nun, lasst uns die Ärmel hochkrempeln und mit ein bisschen echtem R-Code unsere Hände schmutzig machen!

Datenframe erstellen

Ein Datenframe zu erstellen, ist wie das Einrichten deiner eigenen persönlichen Datenbank. Lassen wir mit einem einfachen Beispiel beginnen:

# Datenframe erstellen
students <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(22, 25, 23),
grade = c("A", "B", "A-")
)

# Sehen wir uns unser Datenframe an
print(students)

Wenn du diesen Code ausführst, wirst du sehen:

name age grade
1  Alice  22     A
2    Bob  25     B
3 Charlie 23    A-

Was haben wir hier gemacht? Wir haben ein Datenframe namens students mit drei Spalten erstellt: name, age und grade. Jede Spalte ist ein Vektor, und alle Vektoren müssen die gleiche Länge haben (in diesem Fall 3).

Struktur des Datenframes überprüfen

Nun haben wir unser Datenframe, lassen uns seine Struktur untersuchen. Das ist wie das Unter die Haube schauen eines Autos:

# Struktur des Datenframes erhalten
str(students)

Dies wird ausgeben:

'data.frame':   3 obs. of  3 variables:
$ name : chr  "Alice" "Bob" "Charlie"
$ age  : num  22 25 23
$ grade: chr  "A" "B" "A-"

Dies tells uns, dass students ein Datenframe mit 3 Beobachtungen (Zeilen) und 3 Variablen (Spalten) ist. Es zeigt uns auch den Datentyp jeder Spalte: chr für Zeichenkette (Text) und num für numerisch.

Zusammenfassung der Daten im Datenframe

Möchtest du einen schnellen Überblick über deine Daten? Die summary()-Funktion ist dein bester Freund:

# Zusammenfassung des Datenframes erhalten
summary(students)

Du wirst etwas wie folgendes sehen:

name               age           grade
Length:3           Min.   :22.00   Length:3
Class :character   1st Qu.:22.50   Class :character
Mode  :character   Median :23.00   Mode  :character
Mean   :23.33
3rd Qu.:24.00
Max.   :25.00

Dies gibt uns eine statistische Zusammenfassung unserer Daten. Für numerische Spalten wie 'age' bietet es das Minimum, Maximum, Mittelwert und die Quartile. Für Zeichenketten-Spalten tells es uns die Länge und die Klasse.

Daten aus dem Datenframe extrahieren

Nun lernen wir, wie man spezifische Daten aus unserem Datenframe extrahiert. Das ist wie ein Datenermittler zu sein!

# Eine spezifische Spalte erhalten
print(students$name)

# Eine spezifische Zeile erhalten
print(students[2,])

# Eine spezifische Zelle erhalten
print(students[1, "grade"])

# Mehrere Spalten erhalten
print(students[, c("name", "age")])

Diese Befehle werden ausgeben:

[1] "Alice"   "Bob"     "Charlie"

name age grade
2  Bob  25     B

[1] "A"

name age
1  Alice  22
2    Bob  25
3 Charlie 23

Der $-Operator lässt dich eine Spalte nach Name erreichen. Eckschreibungen [] erlauben dir, Zeilen und Spalten anzugeben: [zeile, spalte]. Wenn du die Zeile oder die Spalte leer lässt, wählt es alle Zeilen oder Spalten aus.

Datenframe erweitern

Wenn deine Daten wachsen, könntest du möglicherweise mehr Informationen zu deinem Datenframe hinzufügen. Sehen wir uns an, wie das geht:

# Neue Spalte hinzufügen
students$height <- c(165, 180, 175)

# Neue Zeile hinzufügen
new_student <- data.frame(name = "David", age = 24, grade = "B+", height = 178)
students <- rbind(students, new_student)

# Sehen wir uns unser aktualisiertes Datenframe an
print(students)

Dies wird uns geben:

name age grade height
1  Alice  22     A    165
2    Bob  25     B    180
3 Charlie 23    A-    175
4  David  24    B+    178

Wir haben eine neue Spalte 'height' mit dem $-Operator hinzugefügt und eine neue Zeile mit der rbind()-Funktion (was für "row bind" steht).

Nützliche Datenframe-Methoden

Hier ist eine Tabelle mit einigen praktischen Methoden zum Arbeiten mit Datenframes:

Methode Beschreibung
head(df) Zeige die ersten 6 Zeilen des Datenframes
tail(df) Zeige die letzten 6 Zeilen des Datenframes
nrow(df) Erhalte die Anzahl der Zeilen
ncol(df) Erhalte die Anzahl der Spalten
names(df) Erhalte die Spaltennamen
colnames(df) Eine andere Möglichkeit, Spaltennamen zu erhalten oder zu setzen
rownames(df) Erhalte oder setze Zeilenamen
dim(df) Erhalte die Dimensionen (Zeilen und Spalten)

Probiere diese an unserem students-Datenframe aus!

Und das war's, Leute! Du hast gerade deine ersten Schritte in die Welt der Datenframes in R unternommen. Denke daran, Übung macht den Meister, also habe keine Angst, diese Befehle auszuprobieren. Erstelle deine eigenen Datenframes, versuche verschiedene Operationen und sieh, was passiert.

Bald wirst du Daten wie ein erfahrener Datenwissenschaftler manipulieren. Und wer weiß? Vielleicht wirst du eines Tages diese Fähigkeiten nutzen, um Daten aus Marskolonien oder Unterwasserstädten zu analysieren. Die Möglichkeiten sind endlos!

Weiter codieren, bleib neugierig und vor allem, haben Spaß! Bis zum nächsten Mal, fröhliches R-Programmieren!

Credits: Image by storyset