R - Data Web
Instalasi Paket R
Sebelum kita masuk ke dunia data web dengan R, mari pastikan Anda memiliki semua tools yang diperlukan. Langkah pertama adalah menginstal paket yang diperlukan. Dalam panduan ini, kita akan menggunakan paket rvest
, yang merupakan pilihan populer untuk web scraping dalam R. Untuk menginstalnya, buka lingkungan R Anda dan jalankan perintah berikut:
install.packages("rvest")
Setelah instalasi selesai, Anda dapat memuat paket ke sesi saat ini dengan menjalankan:
library(rvest)
Data Masukan
Sekarang kita memiliki tools yang siap digunakan, mari diskusikan jenis data apa yang akan kita kerjakan. Data web merujuk kepada informasi yang tersedia di internet, seperti teks, gambar, tautan, dan lainnya. Dalam panduan ini, kita akan fokus pada ekstraksi data teks dari situs web.
Untuk melakukan ini, kita perlu tahu URL situs web yang ingin kita scrape. Misalnya, mari katakan kita ingin ekstrak judul artikel dari situs berita. Kita akan mulai dengan mengidentifikasi URL halaman utama situs atau bagian khusus di mana artikel tersusun.
Contoh
Mari buat contoh di mana kita scrape judul artikel dari situs berita fiktif. Kita akan menggunakan fungsi read_html()
dari paket rvest
untuk mengunduh konten HTML situs web, dan kemudian menggunakan selektor CSS untuk ekstrak informasi yang diinginkan.
Pertama-tama, mari tentukan URL situs web:
url <- "https://www.examplenews.com/articles"
Lanjutkan, kita akan membaca konten HTML situs web:
webpage <- read_html(url)
Sekarang kita memiliki konten HTML, kita dapat menggunakan selektor CSS untuk menargetkan elemen yang mengandung judul artikel. Misalnya, setiap judul artikel diwrapekan dalam tag <h2>
dengan kelas article-title
. Kita dapat ekstrak judul ini menggunakan fungsi html_nodes()
:
titles <- webpage %>%
html_nodes("h2.article-title") %>%
html_text()
Fungsi html_nodes()
menerima dua argumen: selektor CSS dan konten HTML. Dalam kasus ini, kita mencari tag <h2>
dengan kelas article-title
. Fungsi html_text()
ekstrak konten teks dari node ini.
Verifikasi Penerimaan File
Untuk memastikan bahwa kode kita bekerja dengan benar, mari cetak judul yang diekstrak ke konsol:
print(titles)
Jika semua pengaturan benar, Anda seharusnya melihat daftar judul artikel dicetak ke konsol. Ini hanya contoh dasar, tetapi Anda dapat memperluasnya dengan belajar lebih banyak tentang selektor CSS dan fungsi lainnya yang disediakan oleh paket rvest
untuk ekstrak jenis data yang berbeda dari situs web.
Ingat, web scraping selalu harus dilakukan secara bertanggung jawab dan etis. Selalu periksa syarat dan ketentuan situs web dan file robots.txt untuk memastikan Anda diizinkan untuk scrape konten mereka. Selain itu, pertimbangkan untuk menghubungi administrator situs web jika Anda merasa kurang yakin apakah scraping diizinkan.
Dalam kesimpulan, web scraping dengan R bisa menjadi tools yang kuat untuk ekstraksi informasi berharga dari internet. Dengan mengikuti langkah-langkah yang diuraikan dalam panduan ini, Anda sekarang memiliki dasar yang kuat untuk mulai menjelajahi ekstraksi data web menggunakan R. Selamat scraping!
Credits: Image by storyset