R - Multiple Regression: A Beginner's Guide

Hai there, para pengguna R masa depan! Hari ini, kita akan melangkah ke dalam dunia multiple regression menggunakan R. Jangan bimbang jika anda belum pernah menulis baris kode sebelum ini - saya akan menjadi pandu anda di setiap langkah. Pada akhir panduan ini, anda akan terkejut dengan apa yang anda dapat capai hanya dengan beberapa baris kode R!

R - Multiple Regression

Apa Itu Multiple Regression?

Sebelum kita masuk ke dalam kode, mari kita faham apa itu multiple regression. Bayangkan anda cuba untuk menjangkakan harga rumah. Anda mungkin akan fikir tentang saiznya, tetapi itu bukan satu-satunya faktor, kan? Bilangan bilik tidur, kawasan, dan bahkan umur rumah juga boleh memainkan peranan. Multiple regression adalah teknik statistik yang membantu kita memahami bagaimana beberapa faktor (kita panggil mereka variabel bebas) mempengaruhi hasil (variabel dependent kami).

Fungsi lm(): Teman Baru Anda

Dalam R, kita menggunakan fungsi lm() untuk melakukan multiple regression. "lm" bermaksud "model linear", dan ia akan menjadi teman baru anda di dunia statistik. Mari kitaong kopikan bagaimana untuk menggunainya:

model <- lm(dependent_variable ~ independent_variable1 + independent_variable2 + ..., data = your_dataset)

Ia mungkin kelihatan menakutkan pada permulaan, tetapi mari kitaong kopikan:

  • model adalah hanya nama yang kita berikan untuk menyimpan hasil regression kita.
  • dependent_variable adalah apa yang kita cuba untuk menjangkakan.
  • ~ adalah seperti katakan "diterangkan oleh" dalam bahasa R.
  • independent_variable1, independent_variable2, dll., adalah pengenal kita.
  • data = your_dataset memberitahu R di mana untuk mencari variabel kita.

Contoh Langkah demi Langkah

Mari kita lakukan contoh nyata bersama. Kita akan menggunakan dataset binaan dalam R yang dipanggil mtcars (singkatan untuk Motor Trend Car Road Tests). Ia adalah dataset tentang model kereta berbeza dan ciri-cirinya.

Langkah 1: Eksplorasi Data

Pertama, mari kita lihat sedikit data kita:

head(mtcars)

Ini akan menunjukkan kepada kita beberapa baris pertama dataset. Anda akan melihat lajur seperti mpg (miles per gallon), cyl (bilangan silinder), disp (displacement), dan hp (horsepower).

Langkah 2: Membuat Model

mari kita katakan kita mahu menjangkakan miles per gallon (mpg) kereta berdasarkan beratnya (wt) dan horsepower (hp). Beginilah cara kita melakukan itu:

car_model <- lm(mpg ~ wt + hp, data = mtcars)

Langkah 3: Memahami Hasil

Sekarang, mari kita lihat apa yang model memberitahu kita:

summary(car_model)

Perintah ini akan memberikan kita banyak maklumat. Jangan bimbang jika beberapa daripadanya kelihatan seperti bahasa kotor - kita akan fokus pada bahagian utama:

  1. Koefisien: Ini memberitahu kita bagaimana setiap variabel mempengaruhi mpg. Nilai negatif bermaksud bahawa seiring peningkatan variabel, mpg menurun.
  2. R-kuadrat: Ini memberitahu kita betapa baik model kita muat data. Ia berada dalam julat 0 hingga 1, dengan 1 adalah muatan sempurna.
  3. Nilai p: Ini memberitahu kita jika hasil kita statistiknya signifikan. Biasanya, kita mencari nilai kurang daripada 0.05.

Langkah 4: Membuat Ramalan

Sekarang, mari kita gunakan model untuk menjangkakan mpg kereta dengan berat 3000 lbs dan 150 horsepower:

new_car <- data.frame(wt = 3, hp = 150)
predict(car_model, new_car)

Dan voilà! Anda telah membuat ramalan menggunakan multiple regression.

Visualisasi Hasil

Sebuah gambar berharga ribuan kata, terutama dalam sains data. Mari kita buat plot mudah untuk visualisasi model kita:

plot(mtcars$wt, mtcars$mpg, main = "Weight vs MPG", xlab = "Weight", ylab = "Miles Per Gallon")
abline(lm(mpg ~ wt, data = mtcars), col = "red")

Ini akan membuat scatter plot berat vs mpg dan menambahkan garis regression kita dalam merah.

Metode Umum dalam Multiple Regression

Berikut adalah jadual metode umum yang anda mungkin gunakan dengan model regression anda:

Metode Keterangan
summary() Menyediakan ringkasan terperinci model regression
coefficients() Mengembalikan koefisien model
residuals() Menunjukkan perbezaan antara nilai observasi dan nilai diprediksi
predict() Membuat ramalan menggunakan model
plot() Membuat pelbagai plot diagnosis
anova() Melakukan analisis varian pada model

Kesimpulan

Tahniah! Anda telah mengambil langkah pertama ke dalam dunia multiple regression dengan R. Ingat, seperti pelajaran baru, latihan membuat sempurna. Jangan takut untuk mencuba dataset dan variabel berbeza.

Sekarang, saya diingatkan oleh seorang pelajar yang pernah berkata kepadaku, "Saya tidak pernah fikir saya akan dapat menjangkakan apa-apa dengan matematik!" Well, bukan sahaja anda dapat menjangkakan hal-hal sekarang, tetapi anda dapat melakukan itu dengan beberapa faktor sekaligus. Bagaimana itu untuk kekuatan super?

Terus kod, terus belajar, dan terutama, terus bersenang-senang dengan R!

Credits: Image by storyset