R - Data Web
Installasi Paket R
Sebelum kita membanjiri dunia data web dengan R, mari memastikan Anda memiliki semua tools yang diperlukan. Langkah pertama adalah menginstal paket yang diperlukan. Dalam panduan ini, kita akan menggunakan paket rvest
, yang adalah pilihan populer untuk web scraping dalam R. Untuk menginstalnya, buka lingkungan R Anda dan jalankan perintah berikut:
install.packages("rvest")
Setelah instalasi selesai, Anda dapat memuat paket ke sesi saat ini dengan menjalankan:
library(rvest)
Data Masukan
Sekarang kita memiliki tools yang siap, mari bicarakan jenis data apa yang akan kita kerjakan. Data web merujuk kepada informasi yang tersedia di internet, seperti teks, gambar, tautan, dan lainnya. Dalam panduan ini, kita akan fokus pada ekstraksi data teks dari situs web.
Untuk melakukan ini, kita perlu mengetahui URL situs web yang ingin kita scrape. Misalnya, katakanlah kita ingin ekstrak judul artikel dari situs berita. Kita akan mulai dengan mengidentifikasi URL halaman utama situs web atau bagian khusus di mana artikel tersebut tersedia.
Contoh
Mari buat contoh di mana kita scrape judul artikel dari situs berita khayal. Kita akan menggunakan fungsi read_html()
dari paket rvest
untuk mengunduh konten HTML situs web, dan kemudian menggunakan pemilih CSS untuk ekstrak informasi yang diinginkan.
Pertama-tama, mari tentukan URL situs web:
url <- "https://www.examplenews.com/articles"
Selanjutnya, kita akan membaca konten HTML situs web:
webpage <- read_html(url)
Sekarang kita memiliki konten HTML, kita dapat menggunakan pemilih CSS untuk menargetkan elemen yang mengandung judul artikel. Misalnya, setiap judul artikel diwrap dalam tag <h2>
dengan kelas article-title
. Kita dapat ekstrak judul ini menggunakan fungsi html_nodes()
:
titles <- webpage %>%
html_nodes("h2.article-title") %>%
html_text()
Fungsi html_nodes()
menerima dua argumen: pemilih CSS dan konten HTML. Dalam kasus ini, kita mencari tag <h2>
dengan kelas article-title
. Fungsi html_text()
ekstrak konten teks dari node ini.
Verifikasi Pengerjaan Unduhan
Untuk memastikan bahwa kode kita bekerja dengan benar, mari cetak judul yang diekstrak ke konsol:
print(titles)
Jika semua pengaturan benar, Anda seharusnya melihat daftar judul artikel dicetak ke konsol. Ini hanya contoh dasar, tetapi Anda dapat memperluasnya dengan belajar lebih banyak tentang pemilih CSS dan fungsi lain yang disediakan oleh paket rvest
untuk ekstrak jenis data lain dari situs web.
Ingat, web scraping selalu harus dilakukan secara bertanggung jawab dan etis. Selalu periksa syarat dan ketentuan situs web dan file robots.txt untuk memastikan Anda diizinkan untuk scrape konten mereka. Selain itu, pertimbangkan untuk menghubungi administrator situs web jika Anda kurang yakin apakah scraping diizinkan.
Dalam kesimpulan, web scraping dengan R dapat menjadi alat yang kuat untuk ekstrak informasi berharga dari internet. Dengan mengikuti langkah-langkah yang diuraikan dalam panduan ini, Anda sekarang memiliki dasar yang kuat untuk mulai mengekplorasi ekstraksi data web menggunakan R. Selamat scraping!
Credits: Image by storyset