Pour afficher une page HTML correctement, le navigateur doit savoir quel jeu de caractères (character encoding) à utiliser.
Jeux de caractères HTML
Quel est le codage de caractères correct d'utiliser en HTML?
Pour HTML5, le caractère par défaut est le codage UTF-8.
Ça n'a pas toujours été le cas. Le codage de caractères pour le début du web était ASCII.
Plus tard, de HTML 2.0 HTML 4.01, ISO-8859-1 était considéré comme la norme.
Avec XML et HTML5, UTF-8 enfin arrivé, et résolu beaucoup de problèmes de codage de caractères.
Voici une brève description des normes de codage de caractères.
Au commencement: ASCII
Informations sur l'ordinateur (numbers, texts, and pictures) est stockée sous forme de zéros binaires et les (01000101) dans l'électronique.
Pour normaliser la mémorisation des caractères alphanumériques, le code standard américain pour l' échange d' information (ASCII) a été créé. Il a défini un certain nombre 7 bits binaire unique pour chaque caractère stockable pour soutenir les chiffres de 0-9, l'alphabet anglais majuscules / minuscules (az, AZ) , et certains caractères spéciaux comme! $ + - ( ) @ <>.
Depuis ASCII utilisé un octet (7 bits pour le caractère, et un bit de parité pour le contrôle de transmission), il ne peut représenter 128 caractères différents. En plus de ces 32 caractères ont été réservés à d'autres fins de contrôle.
La plus grande faiblesse avec l'ASCII est qu'elle exclut des lettres non anglaises.
ASCII est encore largement utilisé aujourd'hui, en particulier dans les grands systèmes informatiques mainframe.
Pour regarder de plus près, s'il vous plaît étudier notre référence complète ASCII .
Sous Windows: ANSI
ANSI (also called Windows-1252) était le caractère par défaut défini dans Windows, jusqu'à Windows 95.
ANSI est une extension ASCII, avec des caractères internationaux ajoutés. Il utilise un octet complet (8-bits) pour représenter 256 caractères différents.
Étant donné que la norme ANSI a été le caractère par défaut défini dans Windows, il est pris en charge par tous les navigateurs.
Pour regarder de plus près, s'il vous plaît étudier notre complète ANSI référence .
En HTML 4: ISO-8859-1
Étant donné que la plupart des pays utilisent des caractères ASCII en dehors, le caractère encodage par défaut dans la norme HTML 2.0 a été modifiée à la norme ISO-8859-1.
ISO-8859-1 est une extension ASCII, avec des caractères internationaux ajoutés. Comme ANSI, il utilise un octet complet pour représenter deux fois plus de caractères que ASCII.
Lorsque les navigateurs détectent ISO-8859-1 dans une page Web, elles sont par défaut normalement à la norme ANSI, car ANSI est identique à la norme ISO-8859-1, sauf que ANSI a 32 caractères supplémentaires.
Si une page Web HTML 4 utilise un jeu de caractères différent de ISO-8859-1, il doit être spécifié dans le <meta> balise comme:
Exemple
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Le caractère par défaut pour HTML5 est UTF-8.
Tous les processeurs HTML 4 prennent en charge UTF-8, et tous les processeurs HTML5 et XML prennent en charge les UTF-8 et UTF-16.
Pour regarder de plus près, s'il vous plaît étudier notre référence complet ISO-8859-1 .
HTML5: Unicode UTF-8
Parce que les jeux de caractères énumérés ci-dessus sont limitées, et non compatibles dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.
Les couvertures standard Unicode (almost) tous les caractères, ponctuations et des symboles dans le monde.
Unicode permet le traitement, le stockage et le transport de texte, indépendamment de la plate-forme et la langue.
Le caractère encodage par défaut en HTML5 est UTF-8.
Pour regarder de plus près, s'il vous plaît étudier notre référence complet Unicode .