R - Scatterplots
Introduzione
Ciao! Benvenuti nel nostro viaggio nel mondo della visualizzazione dei dati con R. Oggi, andremo a esplorare la creazione di scatterplot utilizzando R, un potente linguaggio di programmazione ampiamente utilizzato nel campo della statistica e dell'analisi dei dati. Se sei nuovo alla programmazione o hai appena iniziato con R, non preoccuparti—procederemo con calma e ci assicureremo che tu capisca ogni passo.
Gli scatterplot sono un ottimo modo per visualizzare la relazione tra due variabili. Ci permettono di vedere se c'è un modello o una correlazione tra di loro. Ad esempio, se hai un set di dati con altezze e pesi delle persone, uno scatterplot può aiutarti a identificare se le persone più alte tendono a pesare di più o viceversa.
Iniziamo!
Creazione dello Scatterplot
Passo 1: Installazione e Caricamento di R
Prima di creare qualsiasi grafico in R, dobbiamo installare e caricare i pacchetti necessari. Il pacchetto ggplot2
è uno dei più popolari per creare grafici bellissimi e personalizzabili. Per installarlo, puoi usare il seguente comando nella tua console R:
install.packages("ggplot2")
Una volta installato il pacchetto, devi caricarlo nel tuo ambiente R. Devi farlo solo una volta per sessione:
library(ggplot2)
Passo 2: Creazione di uno Scatterplot
Ora che abbiamo tutto configurato, creiamo il nostro primo scatterplot. Useremo un set di dati integrato chiamato mtcars
, che contiene informazioni su vari modelli di auto. Plotteremo i chilometri per gallone (mpg) contro la potenza in cavalli (hp).
Prima, diamo un'occhiata al set di dati:
head(mtcars)
Questo ti mostrerà le prime poche righe del set di dati, dando un'idea di come appare.
Ora, creiamo lo scatterplot:
ggplot(data = mtcars, aes(x = hp, y = mpg)) + geom_point()
Ecco cosa fa ogni parte:
-
ggplot(data = mtcars, aes(x = hp, y = mpg))
: Questo inizializza il grafico con il set di datimtcars
e imposta l'asse x come la potenza in cavalli e l'asse y come i chilometri per gallone. -
geom_point()
: Questo aggiunge punti al grafico basati sui valori x e y del set di dati.
Quando esegui questo codice, dovresti vedere uno scatterplot dove ogni punto rappresenta un modello di auto, con la sua posizione determinata dalla sua potenza in cavalli e chilometri per gallone.
Passo 3: Personalizzazione dello Scatterplot
Ora che abbiamo uno scatterplot di base, aggiungiamo un po' di stile. Possiamo cambiare il colore dei punti, aggiungere un titolo e persino regolare la dimensione dei punti.
ggplot(data = mtcars, aes(x = hp, y = mpg)) +
geom_point(color = "blue", size = 3) +
labs(title = "Potenza in Cavalli vs. Chilometri per Gallone", x = "Potenza in Cavalli", y = "Chilometri per Gallone")
In questa versione aggiornata, abbiamo aggiunto quanto segue:
-
color = "blue"
: Questo cambia il colore dei punti in blu. -
size = 3
: Questo rende i punti leggermente più grandi. -
labs(title = ..., x = ..., y = ...)
: Questo aggiunge un titolo al grafico e etichette per gli assi x e y.
Sentiti libero di sperimentare con diversi colori e dimensioni per vedere come influenzano l'aspetto del tuo grafico.
Matrici di Scatterplot
Ora che sai come creare un singolo scatterplot, passiamo a qualcosa di più avanzato: le matrici di scatterplot. Queste sono griglie di scatterplot che ti permettono di confrontare più variabili contemporaneamente. È come avere una galleria intera di scatterplot in un unico posto!
Per creare una matrice di scatterplot, useremo un altro pacchetto chiamato GGally
. Prima, devi installarlo:
install.packages("GGally")
E poi caricarlo:
library(GGally)
Ora, creiamo una matrice di scatterplot utilizzando lo stesso set di dati mtcars
:
ggpairs(mtcars)
Eseguendo questo codice, genererai una matrice di scatterplot, dove ogni grafico mostra la relazione tra due variabili. La diagonale contiene istogrammi di ciascuna variabile, e i triangoli superiore e inferiore contengono scatterplot che confrontano le coppie di variabili.
Puoi personalizzare ulteriormente la matrice di scatterplot aggiungendo scale di colore, creando faceting per categorie e altro. Consulta la documentazione di ggpairs()
per imparare di più su tutte le opzioni disponibili.
Conclusione
Complimenti! Ora hai imparato a creare scatterplot in R utilizzando il pacchetto ggplot2
e come creare matrici di scatterplot con il pacchetto GGally
. Queste competenze sono essenziali per chiunque voglia esplorare le relazioni tra le variabili nei propri dati. Ricorda, la pratica rende perfetti, quindi continua a provare con diversi set di dati e personalizzazioni per migliorare le tue abilità di visualizzazione. Buon coding!
Credits: Image by storyset