Le Consortium Unicode
Le Consortium Unicode développe la norme Unicode. Leur objectif est de remplacer les jeux de caractères existants avec son format de transformation Unicode norme (UTF) .
La norme Unicode est devenu un succès et est mis en œuvre en HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. La norme Unicode est également pris en charge dans de nombreux systèmes d'exploitation et tous les navigateurs modernes.
Le Consortium Unicode coopère avec les principaux organismes de développement de normes, comme ISO, W3C et ECMA.
Les jeux de caractères Unicode
Unicode peut être mis en œuvre par différents jeux de caractères. Les codages les plus couramment utilisés sont UTF-8 et UTF-16:
Jeu de caractères | La description |
---|---|
UTF-8 | Un personnage en UTF8 peut être de 1 à 4 octets. UTF-8 peut représenter tout caractère dans la norme Unicode. UTF-8 est rétrocompatible avec ASCII. UTF-8 est le codage préféré pour les pages de courrier électronique et Web |
UTF-16 | Unicode Transformation Format 16 bits est un caractère de longueur variable pour le codage Unicode, capable de coder pour l'ensemble du répertoire Unicode. UTF-16 est utilisé dans les principaux systèmes d'exploitation et environnements, tels que Microsoft Windows, Java et .NET. |
Tip: Les 128 premiers caractères Unicode (which correspond one-to-one with ASCII) sont codées à l' aide d' un seul octet avec la même valeur binaire en ASCII, ce qui rend le texte ASCII valid Unicode UTF-8 codé ainsi.
HTML 4 prend en charge UTF-8. HTML 5 prend en charge UTF-8 et UTF-16!
La norme HTML5: Unicode UTF-8
Parce que les jeux de caractères dans la norme ISO-8859 est une taille limitée, et non compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.
Les couvertures standard Unicode (almost) tous les caractères, ponctuations et des symboles dans le monde.
Unicode permet le traitement, le stockage et le transport de texte indépendant de la plate-forme et la langue.
Le caractère encodage par défaut en HTML-5 est UTF-8.
Si une page Web HTML5 utilise un jeu de caractères différent de celui UTF-8, il doit être spécifié dans le <meta> balise comme:
Exemple
<meta charset="ISO-8859-1">
La différence entre Unicode et UTF-8
Unicode est un jeu de caractères. UTF-8 est le codage.
Unicode est une liste de caractères avec des nombres décimaux uniques (code points) . A = 41, B = 42, C = 43, ....
Cette liste de nombres décimaux représentent la chaîne "hello" : 104 101 108 108 111
Le codage est la façon dont ces chiffres sont convertis en nombres binaires à stocker dans un ordinateur:
Encodage UTF-8 stockera "bonjour" comme celui - ci (binary) : 01101000 01100101 01101100 01101100 01101111
L' encodage se traduit par des nombres en binaire. Les jeux de caractères traduit les caractères aux chiffres.
HTML5 UTF-8 des codes de caractères
Voici une liste de quelques-uns des codes de caractères UTF-8 pris en charge par HTML5:
Les codes de caractères | Décimal | Hexadécimal |
---|---|---|
Commandes C0 et Latin de base | 0-127 | 0000-007F |
Contrôles C1 et Supplément Latin-1 | 128-255 | 0080-00FF |
Latin étendu-A | 256-383 | 0100-017F |
Latin étendu-B | 384-591 | 0180-024F |
espacement Modificateurs | 688-767 | 02B0-02FF |
marques diacritiques | 768-879 | 0300-036F |
Grec et copte | 880-1023 | 0370-03FF |
cyrillique de base | 1024-1279 | 0400-04FF |
Supplément cyrillique | 1280-1327 | 0500-052F |
Ponctuation générale | 8192-8303 | 2000-206F |
Symboles monétaires | 8352-8399 | 20A0-20CF |
Symboles de type lettre | 8448-8527 | 2100-214F |
Flèches | 8592-8703 | 2190-21FF |
opérateurs mathématiques | 8704-8959 | 2200-22FF |
Dessins Box | 9472-9599 | 2500-257F |
Bloquer les éléments | 9600-9631 | 2580-259F |
Formes géométriques | 9632-9727 | 25A0-25FF |
Symboles Divers | 9728-9983 | 2600-26FF |
Symboles | 9984-10175 | 2700-27BF |