tutorial pengembangan web terbaru
 

HTML Unicode (UTF-8) Referensi


Konsorsium Unicode

Konsorsium Unicode mengembangkan Standard Unicode. Tujuan mereka adalah untuk menggantikan rangkaian karakter yang ada dengan Format Unicode Transformation standar (UTF) .

The Unicode Standard telah menjadi sukses dan diimplementasikan dalam HTML, XML, Java, JavaScript, E-mail, ASP, PHP, dll Unicode standar juga didukung dalam banyak sistem operasi dan semua browser modern.

Konsorsium Unicode bekerja sama dengan organisasi-organisasi pengembangan standar terkemuka, seperti ISO, W3C, dan ECMA.


Unicode Set Karakter

Unicode dapat diimplementasikan oleh set karakter yang berbeda. pengkodean yang paling sering digunakan adalah UTF-8 dan UTF-16:

Set karakter Deskripsi
UTF-8 Sebuah karakter dalam UTF8 dapat dari 1 sampai 4 byte panjang. UTF-8 bisa mewakili setiap karakter dalam standar Unicode. UTF-8 kompatibel dengan ASCII. UTF-8 adalah pengkodean yang lebih disukai untuk e-mail dan web halaman
UTF-16 16-bit Format Transformasi Unicode adalah karakter encoding variabel-panjang untuk Unicode, mampu encoding seluruh repertoar Unicode. UTF-16 digunakan dalam sistem operasi utama dan lingkungan, seperti Microsoft Windows, Java dan .NET.

Tip: Yang pertama 128 karakter Unicode (which correspond one-to-one with ASCII) dikodekan menggunakan oktet tunggal dengan nilai biner sama dengan ASCII, membuat teks ASCII valid valid UTF-8-encoded Unicode juga.

HTML 4 mendukung UTF-8. HTML 5 mendukung UTF-8 dan UTF-16!


HTML5 Standard: Unicode UTF-8

Karena karakter set di ISO-8859 terbatas dalam ukuran, dan tidak kompatibel dalam lingkungan multibahasa, Konsorsium Unicode mengembangkan Standard Unicode.

The Unicode Standard selimut (almost) semua karakter, tanda baca, dan simbol-simbol di dunia.

Unicode memungkinkan pengolahan, penyimpanan, dan pengangkutan independen teks platform dan bahasa.

Karakter encoding default dalam HTML-5 adalah UTF-8.

Jika halaman web HTML5 menggunakan set karakter yang berbeda dari UTF-8, itu harus ditentukan dalam <meta> tag seperti:

Contoh

<meta charset="ISO-8859-1">

Perbedaan Antara Unicode dan UTF-8

Unicode adalah satu set karakter. UTF-8 encoding.

Unicode adalah daftar karakter dengan angka desimal yang unik (code points) . A = 41, B = 42, C = 43, ....

Ini daftar nomor desimal mewakili string "hello" : 104 101 108 108 111

Encoding adalah bagaimana angka-angka ini diterjemahkan ke dalam bilangan biner untuk disimpan dalam komputer:

UTF-8 encoding akan menyimpan "halo" seperti ini (binary) : 01.101.000 01.100.101 01.101.100 01.101.100 01.101.111

Encoding diterjemahkan angka ke biner. Karakter set diterjemahkan karakter untuk nomor.


HTML5 UTF-8 Kode Karakter

Berikut adalah daftar dari beberapa UTF-8 kode karakter yang didukung oleh HTML5:

kode karakter Desimal heksadesimal
Kontrol C0 dan Basic Latin 0-1270000-007F
Kontrol C1 dan Latin-1 Tambahan 128-2550080-00FF
Latin Extended-A 256-3830100-017F
Latin Extended-B 384-5910180-024F
Pengubah spasi 688-76702B0-02FF
Marks diakritik 768-8790300-036F
Yunani dan Koptik 880-10230370-03FF
Cyrillic Dasar 1024-12790400-04FF
Tambahan Cyrillic 1280-13270500-052F
Umum Tanda Baca 8192-83032000-206F
Simbol mata uang 8352-839920A0-20CF
Letterlike Simbol 8448-85272100-214F
Arrows 8592-87032190-21FF
Operator Matematika 8704-89592200-22FF
kotak Gambar 9472-95992500-257F
blok Elements 9600-96312580-259F
Bentuk geometris 9632-972725A0-25FF
Simbol Miscellaneous 9728-99832600-26FF
Dingbats 9984-101752700-27BF