HTML - Character Encodings

Selamat datang, para pengembang web yang sedang belajar! Hari ini, kita akan mendalami dunia yang menarik dari pengkodean karakter di HTML. Sebagai guru komputer yang ramah di lingkungan sekitar Anda, saya di sini untuk menghidahkan Anda dalam perjalanan ini dengan penjelasan yang jelas, banyak contoh, dan sedikit humor. Jadi, ambil papan tulis virtual Anda, dan mari kita mulai!

HTML - Character Encodings

Atribut Charset di HTML

Sebelum kita masuk ke dalam berbagai jenis set karakter, mari kita bicarakan bagaimana kita memberitahukan halaman web kita tentang pengkodean mana yang harus digunakan. Ini adalah tempat dimana atribut charset HTML memainkan perannya.

Atribut charset biasanya ditempatkan dalam tag <meta> di bagian <head> dokumen HTML Anda. Berikut adalah contoh:

<!DOCTYPE html>
<html>
<head>
<meta charset="UTF-8">
<title>Halaman Web Saya yang Menakjubkan</title>
</head>
<body>
<h1>Selamat datang di website saya!</h1>
</body>
</html>

Dalam contoh ini, kita memberitahukan browser untuk menggunakan pengkodean UTF-8 (lebih lanjut tentang ini nanti). PERTanyaannya seperti memberikan halaman web Anda sebuah kacamata khusus untuk membaca teks dengan benar.

Set Karakter ASCII

Sekarang, mari kita mulai perjalanan kita melalui set karakter dengan ASCII, kakek buyut dari semuanya. ASCII berarti American Standard Code for Information Interchange. Itu seperti Model T dari pengkodean karakter - tua tapi dasar.

ASCII menggunakan 7 bit untuk merepresentasikan 128 karakter, termasuk:

  • Huruf kapital (A-Z)
  • Huruf kecil (a-z)
  • Angka (0-9)
  • Tanda baca dasar

Berikut adalah contoh HTML yang menggunakan hanya karakter ASCII:

<p>Hallo, Dunia! 123</p>

Baris ini akan ditampilkan dengan sempurna menggunakan pengkodean ASCII karena hanya mengandung karakter Latin dasar dan angka.

Set Karakter ANSI

Set karakter ANSI (American National Standards Institute) adalah seperti saudara yang lebih keren dan beragam dari ASCII. Itu memperpanjang ASCII untuk menggunakan 8 bit, memungkinkan 256 karakter. Ruang ekstra ini digunakan untuk karakter khusus bagi berbagai bahasa.

Namun, ANSI bukan standar tunggal - itu berubah tergantung pada pengaturan bahasa komputer. Ini bisa menyebabkan situasi yang lucu. Bayangkan mengirimkan surat cinta dalam ANSI, dan komputer kekasih Anda menampilkannya sebagai kode ganjil karena menggunakan halaman kode ANSI yang berbeda!

Set Karakter ISO-8859-1

ISO-8859-1, juga dikenal sebagai Latin-1, adalah seperti panduan wisata Eropa dari set karakter. Itu adalah pengkodean 8 bit yang mencakup karakter yang digunakan dalam bahasa-bahasa Barat Eropa.

Berikut adalah contoh yang menggunakan karakter di luar ASCII:

<p>Café Français</p>

Jika Anda menggunakan pengkodean ISO-8859-1, ini akan ditampilkan dengan benar dengan tanda kesempurnaan. Tetapi hati-hati - jika Anda menggunakan pengkodean yang berbeda, Anda mungkin akhirnya mendapat "Café Français" saja!

Set Karakter UTF-8

Sekarang kita mencapai superhero dari pengkodean karakter - UTF-8. Itu seperti pisau Swiss Army dari set karakter, mampu mengkodekan hampir semua karakter yang Anda pikirkan.

UTF-8 menggunakan jumlah byte variabel untuk merepresentasikan karakter. Ini berarti itu dapat menghandle baik karakter ASCII sederhana (menggunakan hanya satu byte) dan karakter kompleks dari sistem penulisan lain (menggunakan beberapa byte).

Berikut adalah contoh yang menunjukkan fleksibilitas UTF-8:

<p>Hallo, नमस्ते, こんにちは, مرحبا</p>

Dengan pengkodean UTF-8, baris ini akan ditampilkan dengan benar dalam Bahasa Inggris, Hindi, Jepang, dan Arab!

Set Karakter ISO

ISO telah mengembangkan berbagai set karakter untuk kelompok bahasa yang berbeda. PERTanyaannya seperti set alat khusus untuk wilayah tertentu. Berikut adalah tabel dari beberapa set karakter ISO umum:

Set Karakter Deskripsi
ISO-8859-1 Bahasa-bahasa Barat Eropa
ISO-8859-2 Bahasa-bahasa Tengah dan Timur Eropa
ISO-8859-3 Bahasa-bahasa Selatan Eropa
ISO-8859-4 Bahasa-bahasa Utara Eropa
ISO-8859-5 Alpabet Kiril
ISO-8859-6 Arab
ISO-8859-7 Yunani
ISO-8859-8 Ibrani

Set Karakter UTF

UTF (Unicode Transformation Format) adalah solusi modern untuk pengkodean karakter. Itu seperti Perserikatan Bangsa-Bangsa dari set karakter, menggabungkan karakter dari semua sistem penulisan di dunia.

Ada tiga pengkodean UTF utama:

  1. UTF-8: Pengkodean lebar variabel, kompatibel mundur dengan ASCII.
  2. UTF-16: Menggunakan 16 bit untuk karakter yang paling umum, lebih banyak untuk yang lain.
  3. UTF-32: Menggunakan 32 bit untuk semua karakter.

Berikut adalah tabel perbandingan:

Pengkodean Karakteristik Terbaik Untuk
UTF-8 Lebar variabel (1-4 byte) Halaman web, konteks kompatibel ASCII
UTF-16 Lebar variabel (2 atau 4 byte) Sistem operasi, Java
UTF-32 Lebar tetap (4 byte) Situasi di mana akses karakter cepat sangat penting

Dalam tahun-tahun pengajaran saya, saya menemukan bahwa UTF-8 adalah yang paling banyak digunakan dan direkomendasikan untuk pengembangan web. Itu seperti " satu cincin untuk menguasai mereka semua" di dunia pengkodean karakter.

Untuk mengakhiri, mari kita lihat contoh praktis tentang bagaimana menggunakan UTF-8 dalam HTML Anda:

<!DOCTYPE html>
<html lang="en">
<head>
<meta charset="UTF-8">
<title>Selamat Datang Berbahasa Multi</title>
</head>
<body>
<h1>Selamat datang di halaman internasional kami!</h1>
<p>Bahasa Inggris: Hello</p>
<p>Bahasa Spanyol: Hola</p>
<p>Bahasa Perancis: Bonjour</p>
<p>Bahasa Jerman: Guten Tag</p>
<p>Bahasa Rusia: Здравствуйте</p>
<p>Bahasa Cina: 你好</p>
<p>Bahasa Jepang: こんにちは</p>
<p>Bahasa Arab: مرحبا</p>
</body>
</html>

Halaman ini akan ditampilkan dengan benar dalam beberapa bahasa, terima kasih kepada pengkodean UTF-8.

Ingat, memilih pengkodean karakter yang tepat adalah seperti memilih sepatu yang tepat untuk perjalanan. UTF-8 adalah seperti sepatu sneaker nyaman yang dapat membawa Anda ke mana saja, sedangkan pengkodean lain mungkin lebih spesialisasi untuk jenis permukaan tertentu.

Sebagai akhiran les ini, saya harap Anda telah memperoleh pemahaman yang kuat tentang pengkodean karakter di HTML. Terus latih, tetap bersemangat, dan jangan takut untuk mencoba pengkodean karakter yang berbeda. Selamat berkoding!

Credits: Image by storyset