Neueste Web-Entwicklung Tutorials
 

HTML Unicode (UTF-8) Referenz


Das Unicode-Konsortium

Das Unicode Consortium entwickelt den Unicode-Standard. Ihr Ziel ist es, die bestehenden Zeichensätze mit Standard Unicode Transformation Format zu ersetzen (UTF) .

Der Unicode-Standard ist ein Erfolg geworden und wird in HTML, XML, Java, JavaScript, E-Mail, ASP, PHP, etc. Der Unicode-Standard implementiert ist auch in vielen Betriebssystemen und allen modernen Browsern unterstützt.

Das Unicode-Konsortium arbeitet mit den führenden Standardisierungsorganisationen wie ISO, W3C und ECMA.


Die Unicode-Zeichensätze

Unicode kann durch verschiedene Zeichensätze implementiert werden. Die am häufigsten verwendeten Codierungen sind UTF-8 und UTF-16:

Zeichensatz Beschreibung
UTF-8 Ein Zeichen in UTF-8 kann von 1 bis 4 Bytes lang sein. UTF-8 können beliebige Zeichen in dem Unicode-Standard darstellen. UTF-8 ist nach hinten mit ASCII kompatibel. UTF-8 ist die bevorzugte Codierung für E-Mail und Web-Seiten
UTF-16 16-Bit-Unicode Transformation Format ist eine variabler Länge Zeichencodierung für Unicode, der fähig ist das gesamte Unicode Repertoire kodieren. UTF-16 ist in wichtigen Betriebssystemen und Umgebungen, wie Microsoft Windows, Java und .NET verwendet.

Tip: Die ersten 128 Zeichen von Unicode (which correspond one-to-one with ASCII) wird als ASCII ein einzelnes Oktett mit dem gleichen Binärwert codiert unter Verwendung gültige ASCII Text gültig UTF-8-kodierten Unicode als auch zu machen.

HTML 4 unterstützt UTF-8. HTML 5 unterstützt sowohl UTF-8 und UTF-16!


Die HTML5-Standard: Unicode UTF-8

Da die Zeichensätze in ISO-8859 wurden in der Größe begrenzt, und nicht kompatibel in multilingualen Umgebungen entwickelte das Unicode-Konsortium den Unicode-Standard.

Der Unicode - Standard deckt (almost) alle Zeichen, Interpunktionszeichen und Symbole in der Welt.

Unicode ermöglicht die Verarbeitung, Speicherung und Transport von Text unabhängig von Plattform und Sprache.

Die Standardzeichencodierung in HTML-5 ist UTF-8.

Wenn ein HTML5 - Web - Seite einen anderen Zeichensatz als UTF-8 verwendet, sollte sie in der angegeben werden <meta> wie tag:

Beispiel

<meta charset="ISO-8859-1">

Der Unterschied zwischen Unicode und UTF-8

Unicode ist ein Zeichensatz. UTF-8 kodiert.

Unicode ist eine Liste der Charaktere mit einzigartigen Dezimalzahlen (code points) . A = 41, B = 42, C = 43, ....

Diese Liste von dezimalen Zahlen stellen die Zeichenfolge "hello" : 104 101 108 108 111

Codierung ist, wie diese Zahlen in binäre Zahlen übersetzt in einem Computer gespeichert werden:

UTF-8 - Codierung speichert "Hallo" wie folgt (binary) : 01101000 01100101 01101100 01101100 01101111

Encoding übersetzt Zahlen in binär. Zeichensätze übersetzt Zeichen zu Zahlen.


HTML5 UTF-8-Zeichencodes

Im Folgenden finden Sie eine Liste von einigen der UTF-8-Zeichencodes von HTML5 unterstützt:

Zeichencodes Dezimal Hexadezimal
C0 Elementar Latein und Steuer 0-1270000-007F
C1 Bedienelemente und Latin-1 Supplement 128-2550080-00FF
Latin Extended-A 256-3830100-017F
Latin Extended-B 384-5910180-024F
Spacing Modifier 688-76702B0-02FF
diakritische Zeichen 768-8790300-036F
Griechisch und Koptisch 880-10230370-03FF
Kyrillisch Grund 1024-12790400-04FF
Kyrillisch Supplement 1280-13270500-052F
Interpunktion , allgemein 8192-83032000-206F
Währungssymbole 8352-839920A0-20CF
Buchstabensymbole 8448-85272100-214F
Pfeile 8592-87032190-21FF
mathematische Operatoren 8704-89592200-22FF
Box Zeichnungen 9472-95992500-257F
Block - Elemente 9600-96312580-259F
Geometrische Formen 9632-972725A0-25FF
Verschiedene Symbole 9728-99832600-26FF
Dingbats 9984-101752700-27BF