Untuk menampilkan halaman HTML dengan benar, browser harus tahu apa set karakter (character encoding) untuk digunakan.
Set Karakter HTML
Apa pengkodean karakter yang benar untuk digunakan dalam HTML?
Untuk HTML5, pengkodean karakter default adalah UTF-8.
Ini tidak selalu terjadi. Pengkodean karakter untuk web awal adalah ASCII.
Kemudian, dari HTML 2.0 ke HTML 4.01, ISO-8859-1 dianggap standar.
Dengan XML dan HTML5, UTF-8 akhirnya tiba, dan memecahkan banyak masalah pengkodean karakter.
Di bawah ini adalah deskripsi singkat tentang standar pengkodean karakter.
Pada mulanya: ASCII
Informasi komputer (numbers, texts, and pictures) disimpan sebagai orang biner dan nol (01000101) dalam elektronik.
Untuk standarisasi penyimpanan karakter alfanumerik, American Standard Kode untuk Informasi Interchange (ASCII) telah dibuat. Ini didefinisikan biner nomor 7-bit yang unik untuk setiap karakter dapat disimpan untuk mendukung nomor dari 0-9, bagian atas / huruf kecil English alphabet (az, AZ) , dan beberapa karakter khusus seperti! $ + - ( ) @ <>.
Sejak ASCII digunakan satu byte (7 bit untuk karakter, dan salah satu dari sedikit untuk kontrol paritas transmisi), hanya bisa mewakili 128 karakter yang berbeda. Selain 32 karakter tersebut disediakan untuk tujuan kontrol lainnya.
Kelemahan terbesar dengan ASCII adalah bahwa itu dikecualikan huruf non bahasa Inggris.
ASCII masih digunakan secara luas saat ini, terutama dalam sistem komputer mainframe yang besar.
Untuk melihat lebih dekat, silakan belajar kami Referensi ASCII lengkap .
Pada Windows: ANSI
ANSI (also called Windows-1252) adalah karakter default diatur dalam Windows, hingga Windows 95.
ANSI adalah perluasan untuk ASCII, dengan karakter internasional menambahkan. Ini menggunakan byte penuh (8-bits) untuk mewakili 256 karakter yang berbeda.
Sejak ANSI telah menjadi karakter default di Windows, hal ini didukung oleh semua browser.
Untuk melihat lebih dekat, silakan belajar kami Lengkap ANSI Referensi .
Dalam HTML 4: ISO-8859-1
Karena sebagian besar negara menggunakan karakter luar ASCII, karakter encoding default di HTML 2.0 standar diubah menjadi ISO-8859-1.
ISO-8859-1 adalah perluasan untuk ASCII, dengan karakter internasional menambahkan. Seperti ANSI, ia menggunakan byte penuh untuk mewakili dua kali lebih banyak karakter dari ASCII.
Ketika browser mendeteksi ISO-8859-1 di halaman web, mereka biasanya default ke ANSI, karena ANSI identik dengan ISO-8859-1 kecuali bahwa ANSI memiliki 32 karakter tambahan.
Jika halaman web HTML 4 menggunakan karakter-set yang berbeda dari ISO-8859-1, harus ditentukan dalam <meta> tag seperti:
Contoh
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Karakter default ditetapkan untuk HTML5 adalah UTF-8.
Semua HTML 4 prosesor mendukung UTF-8, dan semua prosesor HTML5 dan XML mendukung UTF-8 dan UTF-16.
Untuk melihat lebih dekat, silakan belajar kami Referensi ISO-8859-1 Lengkap .
Dalam HTML5: Unicode UTF-8
Karena karakter set yang tercantum di atas terbatas, dan tidak kompatibel dalam lingkungan multibahasa, Konsorsium Unicode mengembangkan Standard Unicode.
The Unicode Standard selimut (almost) semua karakter, tanda baca, dan simbol-simbol di dunia.
Unicode memungkinkan pengolahan, penyimpanan, dan transportasi teks, independen dari platform dan bahasa.
Karakter encoding default dalam HTML5 adalah UTF-8.
Untuk melihat lebih dekat, silakan belajar kami Lengkap Unicode Referensi .