Guide des Data Frames en R pour Débutants

Salut à toi, futurs programmeurs R ! Aujourd'hui, nous allons entreprendre un voyage passionnant à travers le monde des Data Frames en R. Ne t'inquiète pas si tu n'as jamais programmé auparavant – je serai ton guide amical, et nous avancerons pas à pas. À la fin de ce tutoriel, tu manipuleras les data frames comme un pro !

R - Data Frames

Qu'est-ce que les Data Frames ?

Avant de plonger, comprenons ce qu'est un data frame. Imagine que tu as un tableur avec des lignes et des colonnes – c'est essentiellement ce qu'est un data frame en R. C'est une table bidimensionnelle où chaque colonne peut contenir différents types de données (comme des nombres, du texte ou des dates), et chaque ligne représente un enregistrement individuel.

Maintenant, mettons-nous au travail et manipulons un peu de code R !

Créer un Data Frame

Créer un data frame, c'est comme configurer ta propre base de données personnelle. Commençons par un exemple simple :

# Création d'un data frame
students <- data.frame(
name = c("Alice", "Bob", "Charlie"),
age = c(22, 25, 23),
grade = c("A", "B", "A-")
)

# Voisons à quoi ressemble notre data frame
print(students)

Lorsque tu exécuteras ce code, tu verras :

name age grade
1  Alice  22     A
2    Bob  25     B
3 Charlie 23    A-

Que avons-nous fait ici ? Nous avons créé un data frame appelé students avec trois colonnes : name, age, et grade. Chaque colonne est un vecteur, et tous les vecteurs doivent avoir la même longueur (dans ce cas, 3).

Obtenir la Structure du Data Frame

Maintenant que nous avons notre data frame, examinons sa structure. C'est comme jeter un coup d'œil sous le capot d'une voiture :

# Obtenir la structure du data frame
str(students)

Cela affichera :

'data.frame':   3 obs. de  3 variables:
$ name : chr  "Alice" "Bob" "Charlie"
$ age  : num  22 25 23
$ grade: chr  "A" "B" "A-"

Cela nous indique que students est un data frame avec 3 observations (lignes) et 3 variables (colonnes). Il nous montre également le type de données de chaque colonne : chr pour caractère (texte) et num pour numérique.

Résumé des Données dans le Data Frame

Tu veux un aperçu rapide de tes données ? La fonction summary() est ton meilleur ami :

# Obtenir un résumé du data frame
summary(students)

Tu verras quelque chose comme :

name                age           grade
Length:3           Min.   :22.00   Length:3
Class :character   1st Qu.:22.50   Class :character
Mode  :character   Median :23.00   Mode  :character
Mean   :23.33
3rd Qu.:24.00
Max.   :25.00

Cela nous donne un résumé statistique de nos données. Pour les colonnes numériques comme 'age', il fournit le minimum, le maximum, la moyenne et les quartiles. Pour les colonnes caractères, il nous indique la longueur et le type.

Extraire des Données du Data Frame

Maintenant, apprenons à extraire des données spécifiques de notre data frame. C'est comme être un détective des données !

# Obtenir une colonne spécifique
print(students$name)

# Obtenir une ligne spécifique
print(students[2,])

# Obtenir une cellule spécifique
print(students[1, "grade"])

# Obtenir plusieurs colonnes
print(students[, c("name", "age")])

Ces commandes afficheront :

[1] "Alice"   "Bob"     "Charlie"

name age grade
2  Bob  25     B

[1] "A"

name age
1  Alice  22
2    Bob  25
3 Charlie 23

L'opérateur $ permet d'accéder à une colonne par son nom. Les crochets [] te permettent de spécifier les lignes et les colonnes : [ligne, colonne]. Si tu laisses la ligne ou la colonne vide, elle sélectionne toutes les lignes ou colonnes.

Étendre le Data Frame

À mesure que tes données augmentent, tu pourrais avoir besoin d'ajouter plus d'informations à ton data frame. Voyons comment faire :

# Ajouter une nouvelle colonne
students$height <- c(165, 180, 175)

# Ajouter une nouvelle ligne
new_student <- data.frame(name = "David", age = 24, grade = "B+", height = 178)
students <- rbind(students, new_student)

# Voisons notre data frame mis à jour
print(students)

Cela nous donnera :

name age grade height
1  Alice  22     A    165
2    Bob  25     B    180
3 Charlie 23    A-    175
4  David  24    B+    178

Nous avons ajouté une nouvelle colonne 'height' en utilisant l'opérateur $ et une nouvelle ligne en utilisant la fonction rbind() (qui signifie "lier les rangées").

Méthodes Utiles pour les Data Frames

Voici un tableau de quelques méthodes pratiques pour travailler avec les data frames :

Méthode Description
head(df) Affiche les premières 6 lignes du data frame
tail(df) Affiche les dernières 6 lignes du data frame
nrow(df) Obtient le nombre de lignes
ncol(df) Obtient le nombre de colonnes
names(df) Obtient les noms des colonnes
colnames(df) Une autre manière d'obtenir ou de définir les noms des colonnes
rownames(df) Obtient ou définit les noms des lignes
dim(df) Obtient les dimensions (lignes et colonnes)

Essaye ces méthodes sur notre data frame students !

Et voilà, les amis ! Tu viens de faire tes premiers pas dans le monde des data frames en R. Souviens-toi, la pratique rend parfait, donc n'hésite pas à expérimenter avec ces commandes. Crée tes propres data frames, essaie différentes opérations, et observe ce qui se passe.

Avant de t'en rendre compte, tu manipuleras les données comme un scientifique des données chevronné. Et qui sait ? Peut-être que un jour tu utiliseras ces compétences pour analyser des données provenant de colonies martiennes ou de villes sous-marines. Les possibilités sont infinies !

Continue de coder, reste curieux, et surtout, amuse-toi ! Jusqu'à la prochaine fois, bon codage en R !

Credits: Image by storyset