Pour afficher une page HTML correctement, le navigateur doit savoir quel jeu de caractères (encodage de caractères) à utiliser.
HTML jeux de caractères
Quel est le codage de caractères correct à utiliser en HTML?
Pour HTML5, le codage de caractères par défaut est UTF-8.
Ça n'a pas toujours été le cas. Le codage de caractères pour le début web était ASCII.
Plus tard, de HTML 2.0 en HTML 4.01, ISO-8859-1 a été considéré comme la norme.
Avec XML et HTML5, UTF-8 est enfin arrivé, et résolu beaucoup de problèmes de codage de caractères.
Voici une brève description des normes de codage de caractères.
Au commencement: ASCII
Informations sur l'ordinateur (numéros, textes et images) est stockée comme les binaires et les zéros (01000101) dans l'électronique.
Pour normaliser la mémorisation des caractères alphanumériques, le American Standard Code for Information Interchange (ASCII) a été créé. Il a défini un nombre binaire 7 bits unique pour chaque caractère stockable pour soutenir les nombres de 0-9, majuscules / minuscules Anglais alphabet (az, AZ), et certains caractères spéciaux comme! $ + - () @ <>.
Depuis ASCII utilisé un octet (7 bits pour le caractère, et l'un des bits pour le contrôle de parité de transmission), il ne pourrait représenter 128 caractères différents. En plus 32 de ces caractères ont été réservés à d'autres fins de contrôle.
La plus grande faiblesse avec l'ASCII est qu'elle exclut les lettres non anglaises.
ASCII est encore largement utilisé aujourd'hui, en particulier dans les grands systèmes informatiques mainframe.
Pour regarder de plus près, s'il vous plaît étudier notre ASCII Référence complète .
Sous Windows: ANSI
ANSI (aussi appelé Windows-1252) était le caractère par défaut défini dans Windows, jusqu'à Windows 95.
ANSI est une extension ASCII, avec des caractères internationaux ajoutés. Il utilise un octet complet (8 bits) pour représenter 256 caractères différents.
Depuis ANSI a été le caractère par défaut défini dans Windows, il est pris en charge par tous les navigateurs.
Pour regarder de plus près, s'il vous plaît étudier notre Complete ANSI Référence .
En HTML 4: ISO-8859-1
Comme la plupart des pays utilisent des caractères ASCII en dehors, le codage de caractères par défaut dans la norme HTML 2.0 a été modifiée à la norme ISO-8859-1.
ISO-8859-1 est une extension ASCII, avec des caractères internationaux ajoutés. Comme ANSI, il utilise un octet complet pour représenter deux fois plus de caractères que ASCII.
Lorsque les navigateurs détectent ISO-8859-1 dans une page web, ils normalement par défaut à la norme ANSI, car ANSI est identique à la norme ISO-8859-1, sauf que ANSI a 32 caractères supplémentaires. |
Si une page Web HTML 4 utilise un autre jeu de caractères que la norme ISO-8859-1, il convient de préciser dans le <meta> tag:
Exemple
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Essayez - le vous - même » Le caractère par défaut pour HTML5 est UTF-8. |
Pour regarder de plus près, s'il vous plaît étudier notre Complete Référence ISO-8859-1 .
En HTML5: Unicode UTF-8
Parce que les jeux de caractères listés ci-dessus sont limitées, et non compatible dans des environnements multilingues, le Consortium Unicode a développé le standard Unicode.
Les couvertures standard Unicode (presque) tous les caractères, ponctuations et des symboles dans le monde.
Unicode permet le traitement, le stockage et le transport du texte, indépendamment de la plate-forme et de la langue.
Le codage de caractères par défaut dans HTML5 est UTF-8.
Pour regarder de plus près, s'il vous plaît étudier notre Complete Unicode Référence .