Guide des Data Frames en R pour Débutants
Salut à toi, futurs programmeurs R ! Aujourd'hui, nous allons entreprendre un voyage passionnant à travers le monde des Data Frames en R. Ne t'inquiète pas si tu n'as jamais programmé auparavant – je serai ton guide amical, et nous avancerons pas à pas. À la fin de ce tutoriel, tu manipuleras les data frames comme un pro !
Qu'est-ce que les Data Frames ?
Avant de plonger, comprenons ce qu'est un data frame. Imagine que tu as un tableur avec des lignes et des colonnes – c'est essentiellement ce qu'est un data frame en R. C'est une table bidimensionnelle où chaque colonne peut contenir différents types de données (comme des nombres, du texte ou des dates), et chaque ligne représente un enregistrement individuel.
Maintenant, mettons-nous au travail et manipulons un peu de code R !
Créer un Data Frame
Créer un data frame, c'est comme configurer ta propre base de données personnelle. Commençons par un exemple simple :
# Création d'un data frame
students <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(22, 25, 23),
grade = c("A", "B", "A-")
)
# Voisons à quoi ressemble notre data frame
print(students)
Lorsque tu exécuteras ce code, tu verras :
name age grade
1 Alice 22 A
2 Bob 25 B
3 Charlie 23 A-
Que avons-nous fait ici ? Nous avons créé un data frame appelé students
avec trois colonnes : name, age, et grade. Chaque colonne est un vecteur, et tous les vecteurs doivent avoir la même longueur (dans ce cas, 3).
Obtenir la Structure du Data Frame
Maintenant que nous avons notre data frame, examinons sa structure. C'est comme jeter un coup d'œil sous le capot d'une voiture :
# Obtenir la structure du data frame
str(students)
Cela affichera :
'data.frame': 3 obs. de 3 variables:
$ name : chr "Alice" "Bob" "Charlie"
$ age : num 22 25 23
$ grade: chr "A" "B" "A-"
Cela nous indique que students
est un data frame avec 3 observations (lignes) et 3 variables (colonnes). Il nous montre également le type de données de chaque colonne : chr
pour caractère (texte) et num
pour numérique.
Résumé des Données dans le Data Frame
Tu veux un aperçu rapide de tes données ? La fonction summary()
est ton meilleur ami :
# Obtenir un résumé du data frame
summary(students)
Tu verras quelque chose comme :
name age grade
Length:3 Min. :22.00 Length:3
Class :character 1st Qu.:22.50 Class :character
Mode :character Median :23.00 Mode :character
Mean :23.33
3rd Qu.:24.00
Max. :25.00
Cela nous donne un résumé statistique de nos données. Pour les colonnes numériques comme 'age', il fournit le minimum, le maximum, la moyenne et les quartiles. Pour les colonnes caractères, il nous indique la longueur et le type.
Extraire des Données du Data Frame
Maintenant, apprenons à extraire des données spécifiques de notre data frame. C'est comme être un détective des données !
# Obtenir une colonne spécifique
print(students$name)
# Obtenir une ligne spécifique
print(students[2,])
# Obtenir une cellule spécifique
print(students[1, "grade"])
# Obtenir plusieurs colonnes
print(students[, c("name", "age")])
Ces commandes afficheront :
[1] "Alice" "Bob" "Charlie"
name age grade
2 Bob 25 B
[1] "A"
name age
1 Alice 22
2 Bob 25
3 Charlie 23
L'opérateur $
permet d'accéder à une colonne par son nom. Les crochets []
te permettent de spécifier les lignes et les colonnes : [ligne, colonne]
. Si tu laisses la ligne ou la colonne vide, elle sélectionne toutes les lignes ou colonnes.
Étendre le Data Frame
À mesure que tes données augmentent, tu pourrais avoir besoin d'ajouter plus d'informations à ton data frame. Voyons comment faire :
# Ajouter une nouvelle colonne
students$height <- c(165, 180, 175)
# Ajouter une nouvelle ligne
new_student <- data.frame(name = "David", age = 24, grade = "B+", height = 178)
students <- rbind(students, new_student)
# Voisons notre data frame mis à jour
print(students)
Cela nous donnera :
name age grade height
1 Alice 22 A 165
2 Bob 25 B 180
3 Charlie 23 A- 175
4 David 24 B+ 178
Nous avons ajouté une nouvelle colonne 'height' en utilisant l'opérateur $
et une nouvelle ligne en utilisant la fonction rbind()
(qui signifie "lier les rangées").
Méthodes Utiles pour les Data Frames
Voici un tableau de quelques méthodes pratiques pour travailler avec les data frames :
Méthode | Description |
---|---|
head(df) |
Affiche les premières 6 lignes du data frame |
tail(df) |
Affiche les dernières 6 lignes du data frame |
nrow(df) |
Obtient le nombre de lignes |
ncol(df) |
Obtient le nombre de colonnes |
names(df) |
Obtient les noms des colonnes |
colnames(df) |
Une autre manière d'obtenir ou de définir les noms des colonnes |
rownames(df) |
Obtient ou définit les noms des lignes |
dim(df) |
Obtient les dimensions (lignes et colonnes) |
Essaye ces méthodes sur notre data frame students
!
Et voilà, les amis ! Tu viens de faire tes premiers pas dans le monde des data frames en R. Souviens-toi, la pratique rend parfait, donc n'hésite pas à expérimenter avec ces commandes. Crée tes propres data frames, essaie différentes opérations, et observe ce qui se passe.
Avant de t'en rendre compte, tu manipuleras les données comme un scientifique des données chevronné. Et qui sait ? Peut-être que un jour tu utiliseras ces compétences pour analyser des données provenant de colonies martiennes ou de villes sous-marines. Les possibilités sont infinies !
Continue de coder, reste curieux, et surtout, amuse-toi ! Jusqu'à la prochaine fois, bon codage en R !
Credits: Image by storyset