SEO - Robots.txt (ID)

Selamat datang, para pengembang web yang sedang belajar dan penggemar SEO! Hari ini, kita akan mendalamkan dunia yang menarik dari berkas robots.txt. Sebagai guru komputer tetangga Anda, saya akan mengajarkan Anda tentang aspek penting manajemen website ini, menggunakan bahasa sederhana dan banyak contoh. Jadi, ambillah secangkir kopi, dan mari kita mulai perjalanan yang menarik ini bersama!

SEO - Robots.txt

Struktur Standar berkas robots.txt

Berkas robots.txt seperti sebuah set petunjuk bagi web crawler (beberapa digital kecil yang penjelajah web). Ini memberitahu mereka tentang bagian mana dari website Anda yang boleh ditemui dan bagian mana yang dilarang. Bayangkan ini seperti sebuah tanda "Jangan Masuk" yang sopan untuk beberapa area properti digital Anda.

Ini adalah struktur dasar berkas robots.txt:

User-agent: [nama bot]
Disallow: [path URL]
Allow: [path URL]

mari kitauraikan ini:

User-agent: Ini menentukan bot mana aturan ini berlaku.
Disallow: Ini memberitahu bot tentang halaman atau direktori mana yang tidak boleh diakses.
Allow: Ini secara eksplisit memberikan izin akses ke halaman atau direktori tertentu.

Ilustrasi berkas "robots.txt" yang nyata

mari kita lihat contoh yang lebih lengkap:

User-agent: *
Disallow: /private/
Disallow: /tmp/
Allow: /public/
Sitemap: https://www.example.com/sitemap.xml

User-agent: Googlebot
Disallow: /no-google/

Dalam contoh ini:

Kita menetapkan aturan untuk semua bot (User-agent: *)
Kita menolak akses ke direktori /private/ dan /tmp/
Kita secara eksplisit memberikan izin akses ke direktori /public/
Kita menentukan lokasi peta situs kita
Kita menetapkan aturan khusus untuk Googlebot, menolaknya dari direktori /no-google/

Apa itu User-agent(s)?

User-agent seperti kartu identitas bot. Ini memberitahu website tentang jenis bot yang mengunjungi. Berikut adalah beberapa User-agent umum:

User-agent	Deskripsi
*	Semua bot
Googlebot	Web crawler Google
Bingbot	Crawler Microsoft Bing
Yandexbot	Crawler Yandex
Baiduspider	Crawler Baidu

Catatan

Ingat, robots.txt adalah saran, bukan perintah. Bot yang berkelakuan baik akan mengikuti aturan ini, tetapi bot yang berbahaya mungkin mengabaikannya. Itu seperti menempatkan tanda "Jangan Pakan Hewan" di kebun binatang - kebanyakan pengunjung akan mematuhi, tetapi Anda tidak bisa menjamin bahwa semua orang akan mengikuti aturan.

Directives

Directives adalah petunjuk khusus yang kita berikan kepada bot dalam berkas robots.txt kita. Berikut adalah yang utama:

Directive	Deskripsi
User-agent	Menentukan bot mana aturan berlaku
Disallow	Memberitahu bot tentang halaman atau direktori mana yang tidak boleh diakses
Allow	Secara eksplisit memberikan izin akses ke halaman atau direktori tertentu
Sitemap	Menentukan lokasi peta situs XML Anda

Directives Yang Tidak Didukung

Meskipun ada beberapa directive yang umum digunakan, tidak semua diakui secara universal. Berikut adalah beberapa yang tidak banyak diketahui:

Directive	Deskripsi
Crawl-delay	Menentukan penundaan antara permintaan bot
Host	Menentukan domain yang diinginkan untuk website
Clean-param	Membantu bot mengidentifikasi dan mengabaikan parameter URL

Apa ukuran maksimal yang diizinkan untuk berkas robots.txt?

Meskipun tidak ada batas resmi ukuran untuk berkas robots.txt, umumnya direkomendasikan untuk menjaganya di bawah 500KB. Bayangkan ini seperti mempersiapkan pakaian untuk perjalanan - Anda ingin membawa cukup pakaian, tetapi tidak terlalu banyak sehingga tas Anda tidak bisa ditutup!

Apakah berkas robots.txt diperlukan?

Kaget! Berkas robots.txt tidak benar-benar diperlukan. Itu seperti memiliki bel untuk pintu - itu berguna, tetapi rumah Anda akan berfungsi baik tanpa itu. Namun, memiliki berkas robots.txt memberikan Anda lebih banyak kontrol atas bagaimana mesin pencari berinteraksi dengan situs Anda.

Metode untuk Menemukan Berkas robots.txt

Untuk menemukan berkas robots.txt di website, cukup tambahkan "/robots.txt" ke akhir domain. Misalnya:

https://www.example.com/robots.txt

Itu seperti mengetahui secret handshake untuk masuk ke sebuah klub eksklusif!

Membuat Berkas robots.txt: Petunjuk

Membuat berkas robots.txt mudah. mari kita lihat bagaimana:

Buka editor teks (seperti Notepad)
Tulis directive Anda
Simpan file sebagai "robots.txt"
Unggahnya ke direktori root website Anda

Itu mudah seperti membuat kue... well, mungkin lebih mudah!

Lokasi berkas robots.txt

Berkas robots.txt selalu harus di direktori root website Anda. Itu seperti welcome mat di depan pintu Anda - itu perlu menjadi hal pertama yang dilihat pengunjung (dalam hal ini, bot) saat mereka datang.

Panduan untuk berkas robots.txt

Berikut adalah beberapa praktek terbaik untuk berkas robots.txt Anda:

Simpanlah itu sederhana dan jelas
Gunakan huruf kecil untuk directive (misalnya, "user-agent" bukan "User-Agent")
Gunakan garis miring maju untuk direktori (misalnya, "/private/")
Tes file Anda menggunakan alat seperti Google's robots.txt Tester

Ingat, di dunia robots.txt, kurang sering lebih!

Masalah dengan Blok Akibat robots.txt

Bersih hati saat memblok konten dengan robots.txt. Meskipun itu menghentikan bot dari mencrawl halaman tersebut, itu tidak menghentikan mereka dari diindeks jika mereka terhubung dari halaman lain. Itu seperti menempatkan tanda "Jangan Masuk" di depan jendela kaca - orang masih bisa melihat apa yang di dalamnya!

Kesimpulan

Dan itu adalah, teman-teman! Anda sekarang dilengkapi dengan pengetahuan untuk membuat dan mengelola berkas robots.txt Anda sendiri. Ingat, berkas kecil ini memainkan peran besar dalam bagaimana mesin pencari berinteraksi dengan situs Anda. Gunakanlah itu bijaksana, dan itu bisa membantu meningkatkan upaya SEO Anda.

Saat kita mengakhiri, selalu ingat bahwa landskap digital selalu berubah. Tetap curi-curi, terus belajar, dan jangan takut untuk mencoba (dengan aman) berkas robots.txt Anda. Siapa tahu? Anda mungkin saja menjadi siapa yang berbicara tentang robots.txt!

Happy coding, dan may your websites always be crawler-friendly!

Credits: Image by storyset

Tutorial Sebelumnya:

SEO - Optimalkan untuk Google

Tutorial Selanjutnya:

SEO - Struktur URL