Unicode Consortium
Unicode Consortium Unicode Standard geliştirir. Onların amacı standart Unicode Transformation Format ile mevcut karakter kümelerini değiştirmektir (UTF) .
Unicode Standardı başarılı olmuştur ve aynı zamanda birçok işletim sistemleri ve tüm modern tarayıcılarda desteklenir vb Unicode standardı HTML, XML, Java, JavaScript, e-posta, ASP, PHP, içinde uygulanmaktadır.
Unicode Consortium ISO, W3C ve ECMA gibi lider standart geliştirme kuruluşlarla işbirliği yapmaktadır.
Unicode karakter kümesi
Unicode farklı karakter kümeleri tarafından uygulanabilir. En sık kullanılan kodlamaları UTF-8 ve UTF-16 şunlardır:
Karakter takımı | Açıklama |
---|---|
UTF-8 | UTF8 bir karakter uzunluğunda 1 ila 4 byte arasında olabilir. UTF-8 Unicode standardında herhangi bir karakter temsil edebilir. UTF-8 ASCII ile geriye dönük uyumludur. UTF-8, e-posta ve web sayfaları için tercih edilen kodlama |
UTF-16 | 16 bitlik bir Unicode Dönüşüm Biçim tüm Unicode repertuarı kodlama yeteneğine sahip Unicode bir değişken uzunlukta bir karakter kodlama vardır. UTF-16, Microsoft Windows, Java ve .NET gibi büyük işletim sistemleri ve ortamlar, kullanılır. |
Tip: Unicode ilk 128 karakter (which correspond one-to-one with ASCII) geçerli ASCII metin geçerli yanı Unicode UTF-8 kodlu hale ASCII aynı ikili değeri olan tek bir sekizli kullanarak kodlanmıştır.
HTML 4 UTF-8 destekler. HTML 5 UTF-8 ve UTF-16 hem destekliyor!
HTML5 Standart: Unicode UTF-8
ISO-8859 karakter setleri boyutu sınırlıdır ve çok dilli ortamlarda uyumlu değildi çünkü Unicode Consortium Unicode Standard geliştirdi.
Unicode Standardı kapakları (almost) dünyadaki tüm karakterler, noktalama işaretleri ve semboller.
Unicode işleme, depolama ve platform ve dilin metin bağımsız olarak taşınmasını sağlar.
HTML 5 varsayılan karakter kodlama UTF-8'dir.
Bir HTML5 web sayfası UTF-8 dışında farklı bir karakter seti kullanıyorsa, belirtilmelidir <meta> etiketi gibi:
Örnek
<meta charset="ISO-8859-1">
Unicode ve UTF-8 Arasındaki Fark
Unicode karakter kümesidir. UTF-8 kodlar.
Unicode eşsiz ondalık sayılarla karakterlerin bir listesidir (code points) . A = 41, B = 42, C 43 = ....
Ondalık sayılar Bu liste dizesini temsil "hello" 104 101 108 108 111:
Kodlama bu rakamlar bilgisayarda saklanmasına ikili sayı çevrilir nasıl:
Bu gibi "Merhaba" depolayacak UTF-8 kodlaması (binary) : 01101000 01100101 01101100 01101100 01101111
Kodlama ikili içine numaralarını çevirir. Karakter setleri sayılara karakterleri çevirir.
HTML5 UTF-8 Karakter Kodları
Aşağıda HTML5 tarafından desteklenen UTF-8 karakter kodlarının bazılarının bir listesi:
Karakter kodları | Ondalık | onaltılık |
---|---|---|
C0 Kontroller ve Temel Latince | 0-127 | 0000-007F |
C1-Kontroller ve Latince-1 Ek | 128-255 | 0080-00FF |
Latince Genişletilmiş-A | 256-383 | 0100-017F |
Latince Genişletilmiş-B | 384-591 | 0180-024F |
Boşluk Düzenleyiciler | 688-767 | 02B0-02FF |
aksan Marks | 768-879 | 0300-036F |
Yunan ve Kıpti | 880-1023 | 0370-03FF |
Kiril Temel | 1024-1279 | 0400-04FF |
Kiril Ek | 1280-1327 | 0500-052F |
Genel Noktalama | 8192-8303 | 2000-206F |
Döviz Sembolleri | 8352-8399 | 20A0-20CF |
Harfsel Simgeler | 8448-8527 | 2100-214F |
Oklar | 8592-8703 | 2190-21FF |
Matematiksel Operatörler | 8704-8959 | 2200-22FF |
kutu Çizimleri | 9472-9599 | 2500-257F |
Blok Elemanları | 9600-9631 | 2580-259F |
Geometrik şekiller | 9632-9727 | 25A0-25FF |
Çeşitli Simgeler | 9728-9983 | 2600-26FF |
Dingbat'ler | 9984-10175 | 2700-27BF |