HTML Unicode (UTF-8) Referenz

Das Unicode-Konsortium

Das Unicode Consortium entwickelt den Unicode-Standard. Ihr Ziel ist es, die bestehenden Zeichensätze mit Standard Unicode Transformation Format zu ersetzen (UTF) .

Der Unicode-Standard ist ein Erfolg geworden und wird in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP, etc. Der Unicode-Standard implementiert ist auch in vielen Betriebssystemen und allen modernen Browsern unterstützt.

Das Unicode-Konsortium arbeitet mit den führenden Standardisierungsorganisationen wie ISO, W3C und ECMA.

Die Unicode-Zeichensätze

Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendeten Codierungen sind UTF-8 und UTF-16:

Zeichensatz	Beschreibung
UTF-8	Ein Zeichen in UTF-8 kann von 1 bis 4 Bytes lang sein. UTF-8 können beliebige Zeichen in dem Unicode-Standard darstellen. UTF-8 ist nach hinten mit ASCII kompatibel. UTF-8 ist die bevorzugte Codierung für E-Mail und Web-Seiten
UTF-16	16-Bit-Unicode Transformation Format ist eine variabler Länge Zeichencodierung für Unicode, der fähig ist das gesamte Unicode Repertoire kodieren. UTF-16 ist in wichtigen Betriebssystemen und Umgebungen, wie Microsoft Windows, Java und .NET verwendet.

Tip: Die ersten 128 Zeichen von Unicode (which correspond one-to-one with ASCII) wird als ASCII ein einzelnes Oktett mit dem gleichen Binärwert codiert unter Verwendung gültige ASCII Text gültig UTF-8-kodierten Unicode als auch zu machen.

HTML 4 unterstützt UTF-8. HTML 5 unterstützt sowohl UTF-8 und UTF-16!

Die HTML5-Standard: Unicode UTF-8

Da die Zeichensätze in ISO-8859 wurden in der Größe begrenzt, und nicht kompatibel in multilingualen Umgebungen entwickelte das Unicode-Konsortium den Unicode-Standard.

Der Unicode - Standard deckt (almost) alle Zeichen, Interpunktionszeichen und Symbole in der Welt.

Unicode ermöglicht die Verarbeitung, Speicherung und Transport von Text unabhängig von Plattform und Sprache.

Die Standardzeichencodierung in HTML-5 ist UTF-8.

Wenn ein HTML5 - Web - Seite einen anderen Zeichensatz als UTF-8 verwendet, sollte sie in der angegeben werden <meta> wie tag:

Beispiel

Der Unterschied zwischen Unicode und UTF-8

Unicode ist ein Zeichensatz. UTF-8 kodiert.

Unicode ist eine Liste der Charaktere mit einzigartigen Dezimalzahlen (code points) . A = 41, B = 42, C = 43, ....

Diese Liste von dezimalen Zahlen stellen die Zeichenfolge "hello" : 104 101 108 108 111

Codierung ist, wie diese Zahlen in binäre Zahlen übersetzt in einem Computer gespeichert werden:

UTF-8 - Codierung speichert "Hallo" wie folgt (binary) : 01101000 01100101 01101100 01101100 01101111

Encoding übersetzt Zahlen in binär. Zeichensätze übersetzt Zeichen zu Zahlen.

HTML5 UTF-8-Zeichencodes

Im Folgenden finden Sie eine Liste von einigen der UTF-8-Zeichencodes von HTML5 unterstützt:

Zeichencodes	Dezimal	Hexadezimal
C0 Elementar Latein und Steuer	0-127	0000-007F
C1 Bedienelemente und Latin-1 Supplement	128-255	0080-00FF
Latin Extended-A	256-383	0100-017F
Latin Extended-B	384-591	0180-024F
Spacing Modifier	688-767	02B0-02FF
diakritische Zeichen	768-879	0300-036F
Griechisch und Koptisch	880-1023	0370-03FF
Kyrillisch Grund	1024-1279	0400-04FF
Kyrillisch Supplement	1280-1327	0500-052F
Interpunktion , allgemein	8192-8303	2000-206F
Währungssymbole	8352-8399	20A0-20CF
Buchstabensymbole	8448-8527	2100-214F
Pfeile	8592-8703	2190-21FF
mathematische Operatoren	8704-8959	2200-22FF
Box Zeichnungen	9472-9599	2500-257F
Block - Elemente	9600-9631	2580-259F
Geometrische Formen	9632-9727	25A0-25FF
Verschiedene Symbole	9728-9983	2600-26FF
Dingbats	9984-10175	2700-27BF

❮ Zurück Weiter Referenz ❯

HTML Zeichensatz

HTML UTF-8

HTML Symbole