SEO - Robots.txt (ID)
Selamat datang, para pengembang web yang sedang belajar dan penggemar SEO! Hari ini, kita akan mendalamkan dunia yang menarik dari berkas robots.txt. Sebagai guru komputer tetangga Anda, saya akan mengajarkan Anda tentang aspek penting manajemen website ini, menggunakan bahasa sederhana dan banyak contoh. Jadi, ambillah secangkir kopi, dan mari kita mulai perjalanan yang menarik ini bersama!
Struktur Standar berkas robots.txt
Berkas robots.txt seperti sebuah set petunjuk bagi web crawler (beberapa digital kecil yang penjelajah web). Ini memberitahu mereka tentang bagian mana dari website Anda yang boleh ditemui dan bagian mana yang dilarang. Bayangkan ini seperti sebuah tanda "Jangan Masuk" yang sopan untuk beberapa area properti digital Anda.
Ini adalah struktur dasar berkas robots.txt:
User-agent: [nama bot]
Disallow: [path URL]
Allow: [path URL]
mari kitauraikan ini:
-
User-agent
: Ini menentukan bot mana aturan ini berlaku. -
Disallow
: Ini memberitahu bot tentang halaman atau direktori mana yang tidak boleh diakses. -
Allow
: Ini secara eksplisit memberikan izin akses ke halaman atau direktori tertentu.
Ilustrasi berkas "robots.txt" yang nyata
mari kita lihat contoh yang lebih lengkap:
User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml
User-agent: Googlebot
Disallow: /no-google/
Dalam contoh ini:
- Kita menetapkan aturan untuk semua bot (
User-agent: *
) - Kita menolak akses ke direktori
/private/
dan/tmp/
- Kita secara eksplisit memberikan izin akses ke direktori
/public/
- Kita menentukan lokasi peta situs kita
- Kita menetapkan aturan khusus untuk Googlebot, menolaknya dari direktori
/no-google/
Apa itu User-agent(s)?
User-agent seperti kartu identitas bot. Ini memberitahu website tentang jenis bot yang mengunjungi. Berikut adalah beberapa User-agent umum:
User-agent | Deskripsi |
---|---|
* | Semua bot |
Googlebot | Web crawler Google |
Bingbot | Crawler Microsoft Bing |
Yandexbot | Crawler Yandex |
Baiduspider | Crawler Baidu |
Catatan
Ingat, robots.txt adalah saran, bukan perintah. Bot yang berkelakuan baik akan mengikuti aturan ini, tetapi bot yang berbahaya mungkin mengabaikannya. Itu seperti menempatkan tanda "Jangan Pakan Hewan" di kebun binatang - kebanyakan pengunjung akan mematuhi, tetapi Anda tidak bisa menjamin bahwa semua orang akan mengikuti aturan.
Directives
Directives adalah petunjuk khusus yang kita berikan kepada bot dalam berkas robots.txt kita. Berikut adalah yang utama:
Directive | Deskripsi |
---|---|
User-agent | Menentukan bot mana aturan berlaku |
Disallow | Memberitahu bot tentang halaman atau direktori mana yang tidak boleh diakses |
Allow | Secara eksplisit memberikan izin akses ke halaman atau direktori tertentu |
Sitemap | Menentukan lokasi peta situs XML Anda |
Directives Yang Tidak Didukung
Meskipun ada beberapa directive yang umum digunakan, tidak semua diakui secara universal. Berikut adalah beberapa yang tidak banyak diketahui:
Directive | Deskripsi |
---|---|
Crawl-delay | Menentukan penundaan antara permintaan bot |
Host | Menentukan domain yang diinginkan untuk website |
Clean-param | Membantu bot mengidentifikasi dan mengabaikan parameter URL |
Apa ukuran maksimal yang diizinkan untuk berkas robots.txt?
Meskipun tidak ada batas resmi ukuran untuk berkas robots.txt, umumnya direkomendasikan untuk menjaganya di bawah 500KB. Bayangkan ini seperti mempersiapkan pakaian untuk perjalanan - Anda ingin membawa cukup pakaian, tetapi tidak terlalu banyak sehingga tas Anda tidak bisa ditutup!
Apakah berkas robots.txt diperlukan?
Kaget! Berkas robots.txt tidak benar-benar diperlukan. Itu seperti memiliki bel untuk pintu - itu berguna, tetapi rumah Anda akan berfungsi baik tanpa itu. Namun, memiliki berkas robots.txt memberikan Anda lebih banyak kontrol atas bagaimana mesin pencari berinteraksi dengan situs Anda.
Metode untuk Menemukan Berkas robots.txt
Untuk menemukan berkas robots.txt di website, cukup tambahkan "/robots.txt" ke akhir domain. Misalnya:
https://www.example.com/robots.txt
Itu seperti mengetahui secret handshake untuk masuk ke sebuah klub eksklusif!
Membuat Berkas robots.txt: Petunjuk
Membuat berkas robots.txt mudah. mari kita lihat bagaimana:
- Buka editor teks (seperti Notepad)
- Tulis directive Anda
- Simpan file sebagai "robots.txt"
- Unggahnya ke direktori root website Anda
Itu mudah seperti membuat kue... well, mungkin lebih mudah!
Lokasi berkas robots.txt
Berkas robots.txt selalu harus di direktori root website Anda. Itu seperti welcome mat di depan pintu Anda - itu perlu menjadi hal pertama yang dilihat pengunjung (dalam hal ini, bot) saat mereka datang.
Panduan untuk berkas robots.txt
Berikut adalah beberapa praktek terbaik untuk berkas robots.txt Anda:
- Simpanlah itu sederhana dan jelas
- Gunakan huruf kecil untuk directive (misalnya, "user-agent" bukan "User-Agent")
- Gunakan garis miring maju untuk direktori (misalnya, "/private/")
- Tes file Anda menggunakan alat seperti Google's robots.txt Tester
Ingat, di dunia robots.txt, kurang sering lebih!
Masalah dengan Blok Akibat robots.txt
Bersih hati saat memblok konten dengan robots.txt. Meskipun itu menghentikan bot dari mencrawl halaman tersebut, itu tidak menghentikan mereka dari diindeks jika mereka terhubung dari halaman lain. Itu seperti menempatkan tanda "Jangan Masuk" di depan jendela kaca - orang masih bisa melihat apa yang di dalamnya!
Kesimpulan
Dan itu adalah, teman-teman! Anda sekarang dilengkapi dengan pengetahuan untuk membuat dan mengelola berkas robots.txt Anda sendiri. Ingat, berkas kecil ini memainkan peran besar dalam bagaimana mesin pencari berinteraksi dengan situs Anda. Gunakanlah itu bijaksana, dan itu bisa membantu meningkatkan upaya SEO Anda.
Saat kita mengakhiri, selalu ingat bahwa landskap digital selalu berubah. Tetap curi-curi, terus belajar, dan jangan takut untuk mencoba (dengan aman) berkas robots.txt Anda. Siapa tahu? Anda mungkin saja menjadi siapa yang berbicara tentang robots.txt!
Happy coding, dan may your websites always be crawler-friendly!
Credits: Image by storyset