Konsorsium Unicode
Konsorsium Unicode mengembangkan Standard Unicode. Tujuan mereka adalah untuk menggantikan rangkaian karakter yang ada dengan Format Unicode Transformation standar (UTF) .
The Unicode Standard telah menjadi sukses dan diimplementasikan dalam HTML, XML, Java, JavaScript, E-mail, ASP, PHP, dll Unicode standar juga didukung dalam banyak sistem operasi dan semua browser modern.
Konsorsium Unicode bekerja sama dengan organisasi-organisasi pengembangan standar terkemuka, seperti ISO, W3C, dan ECMA.
Unicode Set Karakter
Unicode dapat diimplementasikan oleh set karakter yang berbeda. pengkodean yang paling sering digunakan adalah UTF-8 dan UTF-16:
Set karakter | Deskripsi |
---|---|
UTF-8 | Sebuah karakter dalam UTF8 dapat dari 1 sampai 4 byte panjang. UTF-8 bisa mewakili setiap karakter dalam standar Unicode. UTF-8 kompatibel dengan ASCII. UTF-8 adalah pengkodean yang lebih disukai untuk e-mail dan web halaman |
UTF-16 | 16-bit Format Transformasi Unicode adalah karakter encoding variabel-panjang untuk Unicode, mampu encoding seluruh repertoar Unicode. UTF-16 digunakan dalam sistem operasi utama dan lingkungan, seperti Microsoft Windows, Java dan .NET. |
Tip: Yang pertama 128 karakter Unicode (which correspond one-to-one with ASCII) dikodekan menggunakan oktet tunggal dengan nilai biner sama dengan ASCII, membuat teks ASCII valid valid UTF-8-encoded Unicode juga.
HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!
HTML5 Standard: Unicode UTF-8
Karena karakter set di ISO-8859 terbatas dalam ukuran, dan tidak kompatibel dalam lingkungan multibahasa, Konsorsium Unicode mengembangkan Standard Unicode.
The Unicode Standard selimut (almost) semua karakter, tanda baca, dan simbol-simbol di dunia.
Unicode memungkinkan pengolahan, penyimpanan, dan pengangkutan independen teks platform dan bahasa.
Karakter encoding default dalam HTML-5 adalah UTF-8.
Jika halaman web HTML5 menggunakan set karakter yang berbeda dari UTF-8, itu harus ditentukan dalam <meta> tag seperti:
Contoh
<meta charset="ISO-8859-1">
Perbedaan Antara Unicode dan UTF-8
Unicode adalah satu set karakter. UTF-8 encoding.
Unicode adalah daftar karakter dengan angka desimal yang unik (code points) . A = 41, B = 42, C = 43, ....
Ini daftar nomor desimal mewakili string "hello" : 104 101 108 108 111
Encoding adalah bagaimana angka-angka ini diterjemahkan ke dalam bilangan biner untuk disimpan dalam komputer:
UTF-8 encoding akan menyimpan "halo" seperti ini (binary) : 01.101.000 01.100.101 01.101.100 01.101.100 01.101.111
Encoding diterjemahkan angka ke biner. Karakter set diterjemahkan karakter untuk nomor.
HTML5 UTF-8 Kode Karakter
Berikut adalah daftar dari beberapa UTF-8 kode karakter yang didukung oleh HTML5:
kode karakter | Desimal | heksadesimal |
---|---|---|
Kontrol C0 dan Basic Latin | 0-127 | 0000-007F |
Kontrol C1 dan Latin-1 Tambahan | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Pengubah spasi | 688-767 | 02B0-02FF |
Marks diakritik | 768-879 | 0300-036F |
Yunani dan Koptik | 880-1023 | 0370-03FF |
Cyrillic Dasar | 1024-1279 | 0400-04FF |
Tambahan Cyrillic | 1280-1327 | 0500-052F |
Umum Tanda Baca | 8192-8303 | 2000-206F |
Simbol mata uang | 8352-8399 | 20A0-20CF |
Letterlike Simbol | 8448-8527 | 2100-214F |
Arrows | 8592-8703 | 2190-21FF |
Operator Matematika | 8704-8959 | 2200-22FF |
kotak Gambar | 9472-9599 | 2500-257F |
blok Elements | 9600-9631 | 2580-259F |
Bentuk geometris | 9632-9727 | 25A0-25FF |
Simbol Miscellaneous | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |