R - Scatterplots

Introduction

Bonjour ! Bienvenue dans notre voyage dans le monde de la visualisation des données avec R. Aujourd'hui, nous allons plonger profondément dans la création de diagrammes de dispersion (scatterplots) en utilisant R, un langage de programmation puissant largement utilisé dans le domaine de la statistique et de l'analyse des données. Si vous êtes nouveau dans la programmation ou si vous venez de commencer avec R, ne vous inquiétez pas - nous allons prendre notre temps et nous assurer que vous comprenez chaque étape.

R - Scatterplots

Les diagrammes de dispersion sont un excellent moyen de visualiser la relation entre deux variables. Ils nous permettent de voir s'il existe un motif ou une corrélation entre elles. Par exemple, si vous avez un ensemble de données contenant les tailles et les poids des personnes, un diagramme de dispersion peut vous aider à identifier si les personnes plus grandes ont tendance à peser plus ou l'inverse.

Commençons !

Création du Diagramme de Dispersion

Étape 1 : Installer et Charger R

Avant de pouvoir créer des graphiques dans R, nous devons installer et charger les packages nécessaires. Le package ggplot2 est l'un des plus populaires pour créer des graphiques magnifiques et personnalisables. Pour l'installer, vous pouvez utiliser la commande suivante dans votre console R :

install.packages("ggplot2")

Une fois le package installé, vous devez le charger dans votre environnement R. Vous n'avez besoin de le faire qu'une fois par session :

library(ggplot2)

Étape 2 : Créer un Diagramme de Dispersion

Maintenant que nous avons tout configuré, créons notre premier diagramme de dispersion. Nous allons utiliser un ensemble de données intégré appelé mtcars, qui contient des informations sur divers modèles de voitures. Nous allons tracer les miles par gallon (mpg) en fonction de la puissance (hp).

Premièrement, regardons l'ensemble de données :

head(mtcars)

Cela vous montrera les premières lignes de l'ensemble de données, vous giving une idée de son apparence.

Maintenant, créons le diagramme de dispersion :

ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()

Voici ce que fait chaque partie :

  • ggplot(data = mtcars, aes(x = hp, y = mpg)) : Cela initialise le graphique avec l'ensemble de données mtcars et definit l'axe des x comme la puissance et l'axe des y comme les miles par gallon.
  • geom_point() : Cela ajoute des points au graphique basés sur les valeurs x et y de l'ensemble de données.

Lorsque vous exécutez ce code, vous devriez voir un diagramme de dispersion où chaque point représente un modèle de voiture, avec sa position déterminée par sa puissance et ses miles par gallon.

Étape 3 : Personnaliser le Diagramme de Dispersion

Maintenant que nous avons un diagramme de dispersion de base, ajoutons-lui un peu de style. Nous pouvons changer la couleur des points, ajouter un titre et même ajuster la taille des points.

ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "bleu", size = 3) +
labs(title = "Puissance vs. Miles Par Gallon", x = "Puissance", y = "Miles Par Gallon")

Dans cette version mise à jour, nous avons ajouté :

  • color = "bleu" : Change la couleur des points en bleu.
  • size = 3 : Augmente légèrement la taille des points.
  • labs(title = ..., x = ..., y = ...) : Ajoute un titre au graphique et des étiquettes pour les axes x et y.

N'hésitez pas à expérimenter avec différentes couleurs et tailles pour voir comment elles affectent l'apparence de votre graphique.

Matrices de Diagrammes de Dispersion

Maintenant que vous savez comment créer un seul diagramme de dispersion, passons à quelque chose de plus avancé : les matrices de diagrammes de dispersion. Ceux-ci sont des grilles de diagrammes de dispersion qui vous permettent de comparer plusieurs variables simultanément. C'est comme avoir une galerie entière de diagrammes de dispersion individuels en un seul endroit !

Pour créer une matrice de diagrammes de dispersion, nous allons utiliser un autre package appelé GGally. Tout d'abord, vous devez l'installer :

install.packages("GGally")

Ensuite, chargez-le :

library(GGally)

Maintenant, créons une matrice de diagrammes de dispersion en utilisant le même ensemble de données mtcars :

ggpairs(mtcars)

L'exécution de cette commande générera une matrice de diagrammes de dispersion, où chaque graphique montre la relation entre deux variables. La diagonale contient des histogrammes de chaque variable, et les triangles supérieur et inférieur contiennent des diagrammes de dispersion comparant des paires de variables.

Vous pouvez personnaliser davantage la matrice de diagrammes de dispersion en ajoutant des échelles de couleur, en créant des facettes par catégories, et plus encore. Consultez la documentation de ggpairs() pour en savoir plus sur toutes les options disponibles pour vous.

Conclusion

Félicitations ! Vous avez maintenant appris comment créer des diagrammes de dispersion en R avec le package ggplot2 et comment créer des matrices de diagrammes de dispersion avec le package GGally. Ces compétences sont essentielles pour quiconque souhaite explorer les relations entre les variables dans leurs données. Souvenez-vous, la pratique rend parfait, donc continuez à essayer différents ensembles de données et personnalisations pour améliorer vos compétences en visualisation. Bon codage !

Credits: Image by storyset