Konsorcjum Unicode
Konsorcjum Unicode opracowuje standard Unicode. Ich celem jest zastąpienie istniejących zestawów znaków z jej standardowym formacie Transformacji Unicode (UTF) .
Standard Unicode stał się sukcesem i jest zaimplementowany w HTML, XML, Java, JavaScript, e-mail, ASP, PHP itp standard Unicode jest również wspierany w wielu systemach operacyjnych i wszystkich nowoczesnych przeglądarkach.
Konsorcjum Unicode współpracuje z czołowymi organizacjami rozwoju norm, takich jak ISO, W3C i ECMA.
Zestawy znaków Unicode
Unicode mogą być realizowane przez różnych zestawów znaków. Najbardziej powszechnie wykorzystywane są kodowania UTF-8 i UTF-16:
Zestaw znaków | Opis |
---|---|
UTF-8 | Postać w UTF-8 może wynosić od 1 do 4 bajtów. UTF-8 może oznaczać dowolny znak w standardzie Unicode. UTF-8 jest wstecznie kompatybilny z ASCII. UTF-8 jest korzystna dla kodowania e-mail i stron |
UTF-16 | 16-bit Unicode Transformation Format jest kodowanie znaków o zmiennej długości dla Unicode, zdolne do kodowania cały repertuar Unicode. UTF-16 jest stosowany w dużych systemach operacyjnych i środowiskach, takich jak Microsoft Windows, Java i .NET. |
Tip: Pierwsze 128 znaków Unicode (which correspond one-to-one with ASCII) są zakodowane przy użyciu jednego oktetu o tej samej wartości binarne ASCII, co ważne ASCII ważne UTF-8 kodowane Unicode również.
HTML 4 obsługuje UTF-8. HTML 5 obsługuje UTF-8 i UTF-16!
HTML5 standardowa: unicode UTF-8
Ponieważ zestawy znaków w ISO-8859 został ograniczony rozmiar, a nie jest kompatybilny w środowiskach wielojęzycznych Konsorcjum Unicode opracowany standard Unicode.
Pokrywy Standardowe Unicode (almost) wszystkie znaki, znaki przestankowe i symbole świata.
Unicode umożliwia przetwarzanie, przechowywanie i transport Niepodległych tekstu platformy i języka.
Domyślne kodowanie znaków w HTML-5 jest UTF-8.
Jeśli strona internetowa HTML5 używa innego zestawu znaków niż UTF-8, powinien być określony w <meta> tag jak:
Przykład
<meta charset="ISO-8859-1">
Różnica między Unicode i UTF-8
Unicode jest zestaw znaków. UTF-8 kodowania.
Unicode jest lista postaci z unikalnymi liczb dziesiętnych (code points) . A = 41 B = 42, C = 43, ....
Ta lista liczb po przecinku stanowią ciąg "hello" : 104 101 108 108 111
Kodowanie jest to, jak te liczby są przeliczane na liczb binarnych być przechowywane w komputerze:
UTF-8 kodowania zapamiętuje "Dzień dobry", jak to (binary) : 01101000 01100101 01101100 01101100 01101111
Kodowanie przekłada numerów w formacie binarnym. Zestawy znaków przekłada znaki liczb.
HTML5 UTF-8 kody znaków
Poniżej znajduje się lista niektórych z UTF-8 kodów znaków obsługiwanych przez HTML5:
kody znaków | Dziesiętny | Szesnastkowy |
---|---|---|
Kontrole C0 i podstawowe Łacińskiej | 0-127 | 0000-007F |
Kontrole C1 i Latin-1 Supplement | 128-255 | 0080-00FF |
Rozszerzony łaciński-A | 256-383 | 0100-017F |
Rozszerzony łaciński-B | 384-591 | 0180-024F |
Oddzielone Modyfikatory | 688-767 | 02B0-02FF |
Znaki diakrytyczne | 768-879 | 0300-036F |
Grecki i koptyjski | 880-1023 | 0370-03FF |
Podstawowe cyrylica | 1024-1279 | 0400-04FF |
Uzupełnienie cyrylicy | 1280-1327 | 0500-052F |
Ogólna interpunkcja | 8192-8303 | 2000-206F |
Symbole walut | 8352-8399 | 20A0-20CF |
Letterlike Symbole | 8448-8527 | 2100-214F |
strzałki | 8592-8703 | 2190-21FF |
Operatory matematyczne | 8704-8959 | 2200-22FF |
Box Rysunki | 9472-9599 | 2500-257F |
blok Elements | 9600-9631 | 2580-259F |
Figury geometryczne | 9632-9727 | 25A0-25FF |
Różnorodne symbole | 9728-9983 | 2600-26FF |
dingbats | 9984-10175 | 2700-27BF |