HTML Unicode (UTF-8) Référence

Le Consortium Unicode

Le Consortium Unicode développe la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants avec son format de transformation Unicode norme (UTF) .

La norme Unicode est devenu un succès et est mis en œuvre en HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. La norme Unicode est également pris en charge dans de nombreux systèmes d'exploitation et tous les navigateurs modernes.

Le Consortium Unicode coopère avec les principaux organismes de développement de normes, comme ISO, W3C et ECMA.

Les jeux de caractères Unicode

Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus couramment utilisés sont UTF-8 et UTF-16:

Jeu de caractères	La description
UTF-8	Un personnage en UTF8 peut être de 1 à 4 octets. UTF-8 peut représenter tout caractère dans la norme Unicode. UTF-8 est rétrocompatible avec ASCII. UTF-8 est le codage préféré pour les pages de courrier électronique et Web
UTF-16	Unicode Transformation Format 16 bits est un caractère de longueur variable pour le codage Unicode, capable de coder pour l'ensemble du répertoire Unicode. UTF-16 est utilisé dans les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET.

Tip: Les 128 premiers caractères Unicode (which correspond one-to-one with ASCII) sont codées à l' aide d' un seul octet avec la même valeur binaire en ASCII, ce qui rend le texte ASCII valid Unicode UTF-8 codé ainsi.

HTML 4 prend en charge UTF-8. HTML 5 prend en charge UTF-8 et UTF-16!

La norme HTML5: Unicode UTF-8

Parce que les jeux de caractères dans la norme ISO-8859 est une taille limitée, et non compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.

Les couvertures standard Unicode (almost) tous les caractères, ponctuations et des symboles dans le monde.

Unicode permet le traitement, le stockage et le transport de texte indépendant de la plate-forme et la langue.

Le caractère encodage par défaut en HTML-5 est UTF-8.

Si une page Web HTML5 utilise un jeu de caractères différent de celui UTF-8, il doit être spécifié dans le <meta> balise comme:

Exemple

La différence entre Unicode et UTF-8

Unicode est un jeu de caractères. UTF-8 est le codage.

Unicode est une liste de caractères avec des nombres décimaux uniques (code points) . A = 41, B = 42, C = 43, ....

Cette liste de nombres décimaux représentent la chaîne "hello" : 104 101 108 108 111

Le codage est la façon dont ces chiffres sont convertis en nombres binaires à stocker dans un ordinateur:

Encodage UTF-8 stockera "bonjour" comme celui - ci (binary) : 01101000 01100101 01101100 01101100 01101111

L' encodage se traduit par des nombres en binaire. Les jeux de caractères traduit les caractères aux chiffres.

HTML5 UTF-8 des codes de caractères

Voici une liste de quelques-uns des codes de caractères UTF-8 pris en charge par HTML5:

Les codes de caractères	Décimal	Hexadécimal
Commandes C0 et Latin de base	0-127	0000-007F
Contrôles C1 et Supplément Latin-1	128-255	0080-00FF
Latin étendu-A	256-383	0100-017F
Latin étendu-B	384-591	0180-024F
espacement Modificateurs	688-767	02B0-02FF
marques diacritiques	768-879	0300-036F
Grec et copte	880-1023	0370-03FF
cyrillique de base	1024-1279	0400-04FF
Supplément cyrillique	1280-1327	0500-052F
Ponctuation générale	8192-8303	2000-206F
Symboles monétaires	8352-8399	20A0-20CF
Symboles de type lettre	8448-8527	2100-214F
Flèches	8592-8703	2190-21FF
opérateurs mathématiques	8704-8959	2200-22FF
Dessins Box	9472-9599	2500-257F
Bloquer les éléments	9600-9631	2580-259F
Formes géométriques	9632-9727	25A0-25FF
Symboles Divers	9728-9983	2600-26FF
Symboles	9984-10175	2700-27BF

❮ Précédent Suivant Référence ❯

HTML Jeu de caractères

HTML UTF-8

HTML Symboles