R - Data Frames: Ein Anfängerleitfaden
Hallo da draußen, zukünftige R-Programmierer! Heute machen wir uns auf eine aufregende Reise in die Welt der Data Frames in R. Keine Sorge, wenn du noch nie programmiert hast – ich werde dein freundlicher Guide sein, und wir gehen das Schritt für Schritt durch. Am Ende dieses Tutorials wirst du Datenframes wie ein Profi manipulieren können!
Was sind Data Frames?
Bevor wir eintauchen, lassen wir uns verstehen, was Datenframes sind. Stell dir eine Tabelle mit Zeilen und Spalten vor – das ist im Wesentlichen, was ein Datenframe in R ist. Es ist eine zweidimensionale Tabelle, in der jede Spalte verschiedene Datentypen enthalten kann (wie Zahlen, Text oder Daten), und jede Zeile stellt einen individuellen Datensatz dar.
Nun, lasst uns die Ärmel hochkrempeln und mit ein bisschen echtem R-Code unsere Hände schmutzig machen!
Datenframe erstellen
Ein Datenframe zu erstellen, ist wie das Einrichten deiner eigenen persönlichen Datenbank. Lassen wir mit einem einfachen Beispiel beginnen:
# Datenframe erstellen
students <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(22, 25, 23),
grade = c("A", "B", "A-")
)
# Sehen wir uns unser Datenframe an
print(students)
Wenn du diesen Code ausführst, wirst du sehen:
name age grade
1 Alice 22 A
2 Bob 25 B
3 Charlie 23 A-
Was haben wir hier gemacht? Wir haben ein Datenframe namens students
mit drei Spalten erstellt: name, age und grade. Jede Spalte ist ein Vektor, und alle Vektoren müssen die gleiche Länge haben (in diesem Fall 3).
Struktur des Datenframes überprüfen
Nun haben wir unser Datenframe, lassen uns seine Struktur untersuchen. Das ist wie das Unter die Haube schauen eines Autos:
# Struktur des Datenframes erhalten
str(students)
Dies wird ausgeben:
'data.frame': 3 obs. of 3 variables:
$ name : chr "Alice" "Bob" "Charlie"
$ age : num 22 25 23
$ grade: chr "A" "B" "A-"
Dies tells uns, dass students
ein Datenframe mit 3 Beobachtungen (Zeilen) und 3 Variablen (Spalten) ist. Es zeigt uns auch den Datentyp jeder Spalte: chr
für Zeichenkette (Text) und num
für numerisch.
Zusammenfassung der Daten im Datenframe
Möchtest du einen schnellen Überblick über deine Daten? Die summary()
-Funktion ist dein bester Freund:
# Zusammenfassung des Datenframes erhalten
summary(students)
Du wirst etwas wie folgendes sehen:
name age grade
Length:3 Min. :22.00 Length:3
Class :character 1st Qu.:22.50 Class :character
Mode :character Median :23.00 Mode :character
Mean :23.33
3rd Qu.:24.00
Max. :25.00
Dies gibt uns eine statistische Zusammenfassung unserer Daten. Für numerische Spalten wie 'age' bietet es das Minimum, Maximum, Mittelwert und die Quartile. Für Zeichenketten-Spalten tells es uns die Länge und die Klasse.
Daten aus dem Datenframe extrahieren
Nun lernen wir, wie man spezifische Daten aus unserem Datenframe extrahiert. Das ist wie ein Datenermittler zu sein!
# Eine spezifische Spalte erhalten
print(students$name)
# Eine spezifische Zeile erhalten
print(students[2,])
# Eine spezifische Zelle erhalten
print(students[1, "grade"])
# Mehrere Spalten erhalten
print(students[, c("name", "age")])
Diese Befehle werden ausgeben:
[1] "Alice" "Bob" "Charlie"
name age grade
2 Bob 25 B
[1] "A"
name age
1 Alice 22
2 Bob 25
3 Charlie 23
Der $
-Operator lässt dich eine Spalte nach Name erreichen. Eckschreibungen []
erlauben dir, Zeilen und Spalten anzugeben: [zeile, spalte]
. Wenn du die Zeile oder die Spalte leer lässt, wählt es alle Zeilen oder Spalten aus.
Datenframe erweitern
Wenn deine Daten wachsen, könntest du möglicherweise mehr Informationen zu deinem Datenframe hinzufügen. Sehen wir uns an, wie das geht:
# Neue Spalte hinzufügen
students$height <- c(165, 180, 175)
# Neue Zeile hinzufügen
new_student <- data.frame(name = "David", age = 24, grade = "B+", height = 178)
students <- rbind(students, new_student)
# Sehen wir uns unser aktualisiertes Datenframe an
print(students)
Dies wird uns geben:
name age grade height
1 Alice 22 A 165
2 Bob 25 B 180
3 Charlie 23 A- 175
4 David 24 B+ 178
Wir haben eine neue Spalte 'height' mit dem $
-Operator hinzugefügt und eine neue Zeile mit der rbind()
-Funktion (was für "row bind" steht).
Nützliche Datenframe-Methoden
Hier ist eine Tabelle mit einigen praktischen Methoden zum Arbeiten mit Datenframes:
Methode | Beschreibung |
---|---|
head(df) |
Zeige die ersten 6 Zeilen des Datenframes |
tail(df) |
Zeige die letzten 6 Zeilen des Datenframes |
nrow(df) |
Erhalte die Anzahl der Zeilen |
ncol(df) |
Erhalte die Anzahl der Spalten |
names(df) |
Erhalte die Spaltennamen |
colnames(df) |
Eine andere Möglichkeit, Spaltennamen zu erhalten oder zu setzen |
rownames(df) |
Erhalte oder setze Zeilenamen |
dim(df) |
Erhalte die Dimensionen (Zeilen und Spalten) |
Probiere diese an unserem students
-Datenframe aus!
Und das war's, Leute! Du hast gerade deine ersten Schritte in die Welt der Datenframes in R unternommen. Denke daran, Übung macht den Meister, also habe keine Angst, diese Befehle auszuprobieren. Erstelle deine eigenen Datenframes, versuche verschiedene Operationen und sieh, was passiert.
Bald wirst du Daten wie ein erfahrener Datenwissenschaftler manipulieren. Und wer weiß? Vielleicht wirst du eines Tages diese Fähigkeiten nutzen, um Daten aus Marskolonien oder Unterwasserstädten zu analysieren. Die Möglichkeiten sind endlos!
Weiter codieren, bleib neugierig und vor allem, haben Spaß! Bis zum nächsten Mal, fröhliches R-Programmieren!
Credits: Image by storyset