Guide de débutant pour les fichiers CSV en R

Bonjour à tous, futurs programmeurs R ! Aujourd'hui, nous allons entreprendre un voyage passionnant dans le monde des fichiers CSV en R. Ne vous inquiétez pas si vous n'avez jamais écrit une ligne de code auparavant - je serai votre guide amical à chaque étape. À la fin de ce tutoriel, vous manipulerez les fichiers CSV comme un pro !

R - CSV Files

Qu'est-ce qu'un fichier CSV ?

Avant de plonger dedans, intéressons-nous aux bases. CSV signifie "Values Separated by Comma" (Valeurs Séparées par une Virgule). C'est un format de fichier simple utilisé pour stocker des données tabulaires, comme des tableurs ou des bases de données. Chaque ligne dans un fichier CSV représente une rangée de données, et chaque champ est séparé par une virgule. Simple, non ?

Obtenir et définir le répertoire de travail

Lorsque vous travaillez avec des fichiers en R, il est crucial de comprendre où R cherche ces fichiers. Cet emplacement est appelé le "répertoire de travail".

Vérifier le répertoire de travail actuel

Pour découvrir votre répertoire de travail actuel, utilisez cette commande :

getwd()

Lorsque vous exécutez cette commande, R vous indiquera le chemin actuel qu'il utilise. Par exemple, il pourrait retourner quelque chose comme :

[1] "C:/Users/NomUtilisateur/Documents"

Définir un nouveau répertoire de travail

Si vous souhaitez changer votre répertoire de travail, utilisez la fonction setwd() :

setwd("C:/Chemin/Vers/Votre/Repertoire/ Souhaite")

N'oubliez pas d'utiliser des barres obliques (/) ou des barres obliques doubles (\) dans votre chemin, même sous Windows !

Entrée en tant que fichier CSV

Maintenant que nous savons où R cherche les fichiers, parlons d'importer des données en R à partir d'un fichier CSV.

Lire un fichier CSV

R rend super simple la lecture des fichiers CSV avec la fonction read.csv(). Voici comment l'utiliser :

data <- read.csv("your_file.csv")

Cette commande lit le fichier CSV nommé "your_file.csv" et le stocke dans une variable appelée data.

Supposons que nous avons un fichier CSV appelé "students.csv" contenant des informations sur les étudiants. Voici comment nous le lisons :

students <- read.csv("students.csv")

Après avoir exécuté cette commande, students sera un cadre de données contenant toutes les informations du fichier CSV.

Voir les données

Pour jeter un coup d'œil à vos données nouvellement importées, vous pouvez utiliser ces fonctions pratiques :

head(students)  # Affiche les 6 premières lignes
str(students)   # Montre la structure des données
summary(students)  # Fournit un résumé de chaque colonne

Analyser le fichier CSV

Maintenant que nous avons nos données en R, faisons une analyse de base !

Accéder aux colonnes

Vous pouvez accéder aux colonnes individuelles en utilisant le symbole $ :

students$age  # Retourne toutes les valeurs de la colonne 'age'

Statistiques de base

R a beaucoup de fonctions intégrées pour l'analyse statistique :

mean(students$age)    # Calcule l'âge moyen
median(students$age)  # Trouve l'âge médian
max(students$age)     # Trouve l'âge maximum
min(students$age)     # Trouve l'âge minimum

Filtrer les données

Vous pouvez également filtrer vos données en fonction de conditions :

honor_students <- students[students$gpa > 3.5, ]

Cela crée un nouveau cadre de données honor_students contenant uniquement les étudiants avec un GPA supérieur à 3.5.

Écrire dans un fichier CSV

Tout comme nous pouvons lire à partir de fichiers CSV, nous pouvons également écrire dedans. Cela est utile lorsque vous avez manipulé vos données et que vous souhaitez enregistrer les résultats.

Pour écrire un cadre de données dans un fichier CSV, utilisez la fonction write.csv() :

write.csv(honor_students, "honor_students.csv")

Cette commande créera un nouveau fichier appelé "honor_students.csv" dans votre répertoire de travail, contenant les données du cadre de données honor_students.

Options importantes pour write.csv()

Voici quelques options utiles que vous pouvez utiliser avec write.csv() :

Option Description
row.names = FALSE Exclut les noms de lignes de la sortie
quote = FALSE Empêche la citation des chaînes
na = "NA" Spécifie comment représenter les valeurs manquantes

Par exemple :

write.csv(honor_students, "honor_students.csv", row.names = FALSE)

Cela écrira le fichier CSV sans inclure les noms de lignes.

Conclusion

Félicitations ! Vous venez d'apprendre les bases de la manipulation des fichiers CSV en R. De la lecture des fichiers à l'analyse des données et à l'écriture de nouveaux fichiers, vous avez maintenant les compétences fondamentales pour commencer votre voyage d'analyse des données.

Souvenez-vous, la pratique rend parfait. Essayez de travailler avec différents fichiers CSV, expérimentez avec diverses fonctions, et n'ayez pas peur de faire des erreurs - c'est ainsi que nous apprenons !

Bonne programmation, et que vos données soient toujours propres et vos analyses éclairantes !

Credits: Image by storyset