Das Unicode-Konsortium
Das Unicode Consortium entwickelt den Unicode-Standard. Ihr Ziel ist es, die bestehenden Zeichensätze mit Standard Unicode Transformation Format zu ersetzen (UTF) .
Der Unicode-Standard ist ein Erfolg geworden und wird in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP, etc. Der Unicode-Standard implementiert ist auch in vielen Betriebssystemen und allen modernen Browsern unterstützt.
Das Unicode-Konsortium arbeitet mit den führenden Standardisierungsorganisationen wie ISO, W3C und ECMA.
Die Unicode-Zeichensätze
Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendeten Codierungen sind UTF-8 und UTF-16:
Zeichensatz | Beschreibung |
---|---|
UTF-8 | Ein Zeichen in UTF-8 kann von 1 bis 4 Bytes lang sein. UTF-8 können beliebige Zeichen in dem Unicode-Standard darstellen. UTF-8 ist nach hinten mit ASCII kompatibel. UTF-8 ist die bevorzugte Codierung für E-Mail und Web-Seiten |
UTF-16 | 16-Bit-Unicode Transformation Format ist eine variabler Länge Zeichencodierung für Unicode, der fähig ist das gesamte Unicode Repertoire kodieren. UTF-16 ist in wichtigen Betriebssystemen und Umgebungen, wie Microsoft Windows, Java und .NET verwendet. |
Tip: Die ersten 128 Zeichen von Unicode (which correspond one-to-one with ASCII) wird als ASCII ein einzelnes Oktett mit dem gleichen Binärwert codiert unter Verwendung gültige ASCII Text gültig UTF-8-kodierten Unicode als auch zu machen.
HTML 4 unterstützt UTF-8. HTML 5 unterstützt sowohl UTF-8 und UTF-16!
Die HTML5-Standard: Unicode UTF-8
Da die Zeichensätze in ISO-8859 wurden in der Größe begrenzt, und nicht kompatibel in multilingualen Umgebungen entwickelte das Unicode-Konsortium den Unicode-Standard.
Der Unicode - Standard deckt (almost) alle Zeichen, Interpunktionszeichen und Symbole in der Welt.
Unicode ermöglicht die Verarbeitung, Speicherung und Transport von Text unabhängig von Plattform und Sprache.
Die Standardzeichencodierung in HTML-5 ist UTF-8.
Wenn ein HTML5 - Web - Seite einen anderen Zeichensatz als UTF-8 verwendet, sollte sie in der angegeben werden <meta> wie tag:
Beispiel
<meta charset="ISO-8859-1">
Der Unterschied zwischen Unicode und UTF-8
Unicode ist ein Zeichensatz. UTF-8 kodiert.
Unicode ist eine Liste der Charaktere mit einzigartigen Dezimalzahlen (code points) . A = 41, B = 42, C = 43, ....
Diese Liste von dezimalen Zahlen stellen die Zeichenfolge "hello" : 104 101 108 108 111
Codierung ist, wie diese Zahlen in binäre Zahlen übersetzt in einem Computer gespeichert werden:
UTF-8 - Codierung speichert "Hallo" wie folgt (binary) : 01101000 01100101 01101100 01101100 01101111
Encoding übersetzt Zahlen in binär. Zeichensätze übersetzt Zeichen zu Zahlen.
HTML5 UTF-8-Zeichencodes
Im Folgenden finden Sie eine Liste von einigen der UTF-8-Zeichencodes von HTML5 unterstützt:
Zeichencodes | Dezimal | Hexadezimal |
---|---|---|
C0 Elementar Latein und Steuer | 0-127 | 0000-007F |
C1 Bedienelemente und Latin-1 Supplement | 128-255 | 0080-00FF |
Latin Extended-A | 256-383 | 0100-017F |
Latin Extended-B | 384-591 | 0180-024F |
Spacing Modifier | 688-767 | 02B0-02FF |
diakritische Zeichen | 768-879 | 0300-036F |
Griechisch und Koptisch | 880-1023 | 0370-03FF |
Kyrillisch Grund | 1024-1279 | 0400-04FF |
Kyrillisch Supplement | 1280-1327 | 0500-052F |
Interpunktion , allgemein | 8192-8303 | 2000-206F |
Währungssymbole | 8352-8399 | 20A0-20CF |
Buchstabensymbole | 8448-8527 | 2100-214F |
Pfeile | 8592-8703 | 2190-21FF |
mathematische Operatoren | 8704-8959 | 2200-22FF |
Box Zeichnungen | 9472-9599 | 2500-257F |
Block - Elemente | 9600-9631 | 2580-259F |
Geometrische Formen | 9632-9727 | 25A0-25FF |
Verschiedene Symbole | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |