Derniers tutoriels de développement web
 

HTML Unicode (UTF-8) Référence


Le Consortium Unicode

Le Consortium Unicode développe la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants avec son format de transformation Unicode norme (UTF) .

La norme Unicode est devenu un succès et est mis en œuvre en HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. La norme Unicode est également pris en charge dans de nombreux systèmes d'exploitation et tous les navigateurs modernes.

Le Consortium Unicode coopère avec les principaux organismes de développement de normes, comme ISO, W3C et ECMA.


Les jeux de caractères Unicode

Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus couramment utilisés sont UTF-8 et UTF-16:

Jeu de caractères La description
UTF-8 Un personnage en UTF8 peut être de 1 à 4 octets. UTF-8 peut représenter tout caractère dans la norme Unicode. UTF-8 est rétrocompatible avec ASCII. UTF-8 est le codage préféré pour les pages de courrier électronique et Web
UTF-16 Unicode Transformation Format 16 bits est un caractère de longueur variable pour le codage Unicode, capable de coder pour l'ensemble du répertoire Unicode. UTF-16 est utilisé dans les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET.

Tip: Les 128 premiers caractères Unicode (which correspond one-to-one with ASCII) sont codées à l' aide d' un seul octet avec la même valeur binaire en ASCII, ce qui rend le texte ASCII valid Unicode UTF-8 codé ainsi.

HTML 4 prend en charge UTF-8. HTML 5 prend en charge UTF-8 et UTF-16!


La norme HTML5: Unicode UTF-8

Parce que les jeux de caractères dans la norme ISO-8859 est une taille limitée, et non compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.

Les couvertures standard Unicode (almost) tous les caractères, ponctuations et des symboles dans le monde.

Unicode permet le traitement, le stockage et le transport de texte indépendant de la plate-forme et la langue.

Le caractère encodage par défaut en HTML-5 est UTF-8.

Si une page Web HTML5 utilise un jeu de caractères différent de celui UTF-8, il doit être spécifié dans le <meta> balise comme:

Exemple

<meta charset="ISO-8859-1">

La différence entre Unicode et UTF-8

Unicode est un jeu de caractères. UTF-8 est le codage.

Unicode est une liste de caractères avec des nombres décimaux uniques (code points) . A = 41, B = 42, C = 43, ....

Cette liste de nombres décimaux représentent la chaîne "hello" : 104 101 108 108 111

Le codage est la façon dont ces chiffres sont convertis en nombres binaires à stocker dans un ordinateur:

Encodage UTF-8 stockera "bonjour" comme celui - ci (binary) : 01101000 01100101 01101100 01101100 01101111

L' encodage se traduit par des nombres en binaire. Les jeux de caractères traduit les caractères aux chiffres.


HTML5 UTF-8 des codes de caractères

Voici une liste de quelques-uns des codes de caractères UTF-8 pris en charge par HTML5:

Les codes de caractères Décimal Hexadécimal
Commandes C0 et Latin de base 0-1270000-007F
Contrôles C1 et Supplément Latin-1 128-2550080-00FF
Latin étendu-A 256-3830100-017F
Latin étendu-B 384-5910180-024F
espacement Modificateurs 688-76702B0-02FF
marques diacritiques 768-8790300-036F
Grec et copte 880-10230370-03FF
cyrillique de base 1024-12790400-04FF
Supplément cyrillique 1280-13270500-052F
Ponctuation générale 8192-83032000-206F
Symboles monétaires 8352-839920A0-20CF
Symboles de type lettre 8448-85272100-214F
Flèches 8592-87032190-21FF
opérateurs mathématiques 8704-89592200-22FF
Dessins Box 9472-95992500-257F
Bloquer les éléments 9600-96312580-259F
Formes géométriques 9632-972725A0-25FF
Symboles Divers 9728-99832600-26FF
Symboles 9984-101752700-27BF