R - Multiple Regression: A Beginner's Guide
Hai there, para pengguna R masa depan! Hari ini, kita akan melangkah ke dalam dunia multiple regression menggunakan R. Jangan bimbang jika anda belum pernah menulis baris kode sebelum ini - saya akan menjadi pandu anda di setiap langkah. Pada akhir panduan ini, anda akan terkejut dengan apa yang anda dapat capai hanya dengan beberapa baris kode R!
Apa Itu Multiple Regression?
Sebelum kita masuk ke dalam kode, mari kita faham apa itu multiple regression. Bayangkan anda cuba untuk menjangkakan harga rumah. Anda mungkin akan fikir tentang saiznya, tetapi itu bukan satu-satunya faktor, kan? Bilangan bilik tidur, kawasan, dan bahkan umur rumah juga boleh memainkan peranan. Multiple regression adalah teknik statistik yang membantu kita memahami bagaimana beberapa faktor (kita panggil mereka variabel bebas) mempengaruhi hasil (variabel dependent kami).
Fungsi lm(): Teman Baru Anda
Dalam R, kita menggunakan fungsi lm()
untuk melakukan multiple regression. "lm" bermaksud "model linear", dan ia akan menjadi teman baru anda di dunia statistik. Mari kitaong kopikan bagaimana untuk menggunainya:
model <- lm(dependent_variable ~ independent_variable1 + independent_variable2 + ..., data = your_dataset)
Ia mungkin kelihatan menakutkan pada permulaan, tetapi mari kitaong kopikan:
-
model
adalah hanya nama yang kita berikan untuk menyimpan hasil regression kita. -
dependent_variable
adalah apa yang kita cuba untuk menjangkakan. -
~
adalah seperti katakan "diterangkan oleh" dalam bahasa R. -
independent_variable1
,independent_variable2
, dll., adalah pengenal kita. -
data = your_dataset
memberitahu R di mana untuk mencari variabel kita.
Contoh Langkah demi Langkah
Mari kita lakukan contoh nyata bersama. Kita akan menggunakan dataset binaan dalam R yang dipanggil mtcars
(singkatan untuk Motor Trend Car Road Tests). Ia adalah dataset tentang model kereta berbeza dan ciri-cirinya.
Langkah 1: Eksplorasi Data
Pertama, mari kita lihat sedikit data kita:
head(mtcars)
Ini akan menunjukkan kepada kita beberapa baris pertama dataset. Anda akan melihat lajur seperti mpg
(miles per gallon), cyl
(bilangan silinder), disp
(displacement), dan hp
(horsepower).
Langkah 2: Membuat Model
mari kita katakan kita mahu menjangkakan miles per gallon (mpg) kereta berdasarkan beratnya (wt
) dan horsepower (hp
). Beginilah cara kita melakukan itu:
car_model <- lm(mpg ~ wt + hp, data = mtcars)
Langkah 3: Memahami Hasil
Sekarang, mari kita lihat apa yang model memberitahu kita:
summary(car_model)
Perintah ini akan memberikan kita banyak maklumat. Jangan bimbang jika beberapa daripadanya kelihatan seperti bahasa kotor - kita akan fokus pada bahagian utama:
- Koefisien: Ini memberitahu kita bagaimana setiap variabel mempengaruhi mpg. Nilai negatif bermaksud bahawa seiring peningkatan variabel, mpg menurun.
- R-kuadrat: Ini memberitahu kita betapa baik model kita muat data. Ia berada dalam julat 0 hingga 1, dengan 1 adalah muatan sempurna.
- Nilai p: Ini memberitahu kita jika hasil kita statistiknya signifikan. Biasanya, kita mencari nilai kurang daripada 0.05.
Langkah 4: Membuat Ramalan
Sekarang, mari kita gunakan model untuk menjangkakan mpg kereta dengan berat 3000 lbs dan 150 horsepower:
new_car <- data.frame(wt = 3, hp = 150)
predict(car_model, new_car)
Dan voilà! Anda telah membuat ramalan menggunakan multiple regression.
Visualisasi Hasil
Sebuah gambar berharga ribuan kata, terutama dalam sains data. Mari kita buat plot mudah untuk visualisasi model kita:
plot(mtcars$wt, mtcars$mpg, main = "Weight vs MPG", xlab = "Weight", ylab = "Miles Per Gallon")
abline(lm(mpg ~ wt, data = mtcars), col = "red")
Ini akan membuat scatter plot berat vs mpg dan menambahkan garis regression kita dalam merah.
Metode Umum dalam Multiple Regression
Berikut adalah jadual metode umum yang anda mungkin gunakan dengan model regression anda:
Metode | Keterangan |
---|---|
summary() | Menyediakan ringkasan terperinci model regression |
coefficients() | Mengembalikan koefisien model |
residuals() | Menunjukkan perbezaan antara nilai observasi dan nilai diprediksi |
predict() | Membuat ramalan menggunakan model |
plot() | Membuat pelbagai plot diagnosis |
anova() | Melakukan analisis varian pada model |
Kesimpulan
Tahniah! Anda telah mengambil langkah pertama ke dalam dunia multiple regression dengan R. Ingat, seperti pelajaran baru, latihan membuat sempurna. Jangan takut untuk mencuba dataset dan variabel berbeza.
Sekarang, saya diingatkan oleh seorang pelajar yang pernah berkata kepadaku, "Saya tidak pernah fikir saya akan dapat menjangkakan apa-apa dengan matematik!" Well, bukan sahaja anda dapat menjangkakan hal-hal sekarang, tetapi anda dapat melakukan itu dengan beberapa faktor sekaligus. Bagaimana itu untuk kekuatan super?
Terus kod, terus belajar, dan terutama, terus bersenang-senang dengan R!
Credits: Image by storyset