Guida introduttiva agli istogrammi in R

Ciao a tutti, futuri maghi dei dati! Oggi ci imbarcheremo in un viaggio emozionante nel mondo degli istogrammi utilizzando R. Non preoccupatevi se non avete mai scritto una riga di codice prima – sarò il vostro guida amichevole, e faremo questo passo per passo. Alla fine di questa guida, sarete in grado di creare bellissimi istogrammi come professionisti!

R - Histograms

Cos'è un istogramma?

Prima di immergerci in R, capiremo cos'è un istogramma. Immagina di essere un insegnante (come me!) e vuoi vedere come i tuoi studenti hanno performed un test. Un istogramma è come un grafico a barre che mostra la distribuzione dei tuoi dati. Raggruppa i tuoi dati in "bin" o intervalli e mostra quanti punti dati cadono in ogni bin.

Iniziare con R

Prima di tutto, avviiamo R! Se non hai ancora installato R, vai sul sito del Progetto R e segui le istruzioni di installazione per il tuo sistema operativo.

Una volta installato e avviato R, vedrai una console dove puoi digitare i comandi. Qui avviene la magia!

Creare il tuo primo istogramma

Iniziamo con un esempio semplice. Creeremo un istogramma di alcuni punteggi di test.

# Creare un vettore di punteggi di test
scores <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)

# Creare un istogramma
hist(scores)

Quando esegui questo codice, vedrai apparire un istogramma di base. Molto cool, vero? Analizziamo cosa abbiamo fatto:

  1. Abbiamo creato un vettore chiamato scores con alcuni punteggi di test.
  2. Abbiamo utilizzato la funzione hist() per creare un istogramma di questi punteggi.

R ha automaticamente deciso quanti bin utilizzare e quale intervallo ogni bin dovrebbe coprire. Ma cosa succede se vogliamo avere più controllo sul nostro istogramma? È qui che la magia di R davvero si accende!

Personalizzare il tuo istogramma

Specificare il numero di bin

Possiamo dire a R esattamente quanti bin vogliamo:

hist(scores, breaks = 5)

Questo creerà un istogramma con 5 bin. Gioca con diversi numeri e guarda come cambia l'aspetto del tuo istogramma!

Aggiungere titoli e etichette

Rendiamo il nostro istogramma più informativo:

hist(scores,
main = "Distribuzione dei punteggi di test",
xlab = "Punteggi",
ylab = "Frequenza",
col = "skyblue",
border = "darkblue")

Ecco cosa fa ogni nuovo parametro:

  • main: Aggiunge un titolo all'istogramma
  • xlab e ylab: Etichettano gli assi x e y
  • col: Imposta il colore delle barre
  • border: Imposta il colore dei bordi delle barre

Regolare l'intervallo di valori X e Y

A volte, potresti voler concentrarti su un intervallo specifico di valori o regolare la scala del tuo istogramma. Vediamo come possiamo fare questo:

hist(scores,
xlim = c(60, 100),  # Imposta l'intervallo dell'asse x
ylim = c(0, 5),     # Imposta l'intervallo dell'asse y
breaks = seq(60, 100, by = 5))  # Crea bin da 60 a 100, ogni 5 punti

Questo codice regola l'asse x per mostrare punteggi da 60 a 100, imposta l'asse y per arrivare a 5, e crea bin ogni 5 punti.

Tecniche avanzate di istogrammi

Ora che hai padroneggiato le basi, esploriamo alcune tecniche più avanzate!

Aggiungere una curva di densità

Una curva di densità può aiutare a visualizzare la distribuzione dei tuoi dati:

hist(scores,
probability = TRUE,  # Mostra la densità invece della frequenza
main = "Distribuzione dei punteggi di test con curva di densità")

# Aggiungi la curva di densità
lines(density(scores), col = "red", lwd = 2)

Questo codice prima crea un istogramma che mostra la densità di probabilità, poi aggiunge una curva di densità liscia in alto.

Creare più istogrammi

Cosa succede se vuoi confrontare distribuzioni? Creiamo istogrammi per due classi accanto:

par(mfrow = c(1, 2))  # Imposta una griglia 1x2 per i grafici

# Punteggi della classe A
scores_A <- c(65, 70, 80, 85, 90, 95, 75, 80, 85, 90)
hist(scores_A, main = "Punteggi della classe A", col = "lightblue")

# Punteggi della classe B
scores_B <- c(60, 65, 70, 75, 80, 85, 90, 95, 100, 85)
hist(scores_B, main = "Punteggi della classe B", col = "lightgreen")

Questo codice imposta una comparazione laterale di due istogrammi, permettendoti di confrontare facilmente le distribuzioni.

Funzioni utili per gli istogrammi

Ecco una tabella utile delle funzioni che abbiamo utilizzato, più alcune altre che potresti trovare utili:

Funzione Descrizione
hist() Crea un istogramma di base
breaks Specifica il numero di bin o i bordi dei bin
main Imposta il titolo principale dell'istogramma
xlab, ylab Etichettano gli assi x e y
col Imposta il colore delle barre dell'istogramma
border Imposta il colore dei bordi delle barre
xlim, ylim Impostano l'intervallo degli assi x e y
density() Calcola stime della densità del nucleo
lines() Aggiunge linee a un grafico esistente
par() Imposta o interroga i parametri grafici

Conclusione

Congratulazioni! Hai appena fatto i tuoi primi passi nel mondo della visualizzazione dei dati con gli istogrammi in R. Ricorda, creare visualizzazioni efficaci è tanto un'arte quanto una scienza. Non aver paura di sperimentare con diversi parametri e vedere come influenzano i tuoi istogrammi.

Mentre continui il tuo viaggio con R, scoprirai che gli istogrammi sono solo la punta dell'iceberg quando si tratta di visualizzazione dei dati. Ma sono un ottimo punto di partenza, e le competenze che hai imparato qui ti serviranno bene mentre esplori argomenti più avanzati.

Continua a esercitarti, rimani curioso e divertiti con il coding! Prima di sapere, sarai tu a insegnare agli altri i meraviglii di R e della visualizzazione dei dati.

Credits: Image by storyset