Per visualizzare una pagina HTML in modo corretto, il browser deve sapere cosa set di caratteri (character encoding) da utilizzare.
Set di caratteri HTML
Qual è la codifica dei caratteri corretta da utilizzare in HTML?
Per HTML5, la codifica dei caratteri di default è UTF-8.
Questo non è sempre stato così. La codifica dei caratteri per i primi web era ASCII.
Più tardi, da HTML 2.0 a HTML 4.01, ISO-8859-1 è stato considerato lo standard.
Con XML e HTML5, UTF-8 finalmente arrivato, e risolto un sacco di problemi di codifica dei caratteri.
Di seguito una breve descrizione degli standard di codifica dei caratteri.
In the Beginning: ASCII
informazioni sul computer (numeri, testi e immagini) viene memorizzato come uno binario e zero (01000101) nei dell'elettronica.
Per uniformare la memorizzazione di caratteri alfanumerici, il codice standard americano per Information Interchange (ASCII) è stato creato. E 'definito un numero di 7 bit binario unico per ogni carattere conservabile per supportare i numeri da 0-9, il / minuscole superiore alfabeto inglese (az, AZ), e alcuni caratteri speciali come! $ + - () @ <>.
Dal momento che ASCII utilizzato un byte (7 bit per il personaggio, e uno dei bit per il controllo di parità di trasmissione), potrebbe rappresentare solo 128 caratteri diversi. Oltre 32 di questi personaggi erano riservati per altri scopi di controllo.
La più grande debolezza con ASCII è che escludeva le lettere non inglesi.
ASCII è ancora in uso oggi largamente diffuso, soprattutto nelle grandi sistemi di computer mainframe.
Per uno sguardo più attento, si prega di studiare la nostra completa ASCII di riferimento .
In Windows: ANSI
ANSI (chiamato anche Windows 1252) è stato il set di caratteri in Windows, fino a Windows 95.
ANSI è un'estensione di ASCII, con caratteri internazionali aggiunti. Esso utilizza un byte completo (8-bit) per rappresentare 256 caratteri diversi.
Dal ANSI è stato il set di caratteri predefinito in Windows, è supportato da tutti i browser.
Per uno sguardo più attento, si prega di studiare la nostra completa ANSI di riferimento .
In HTML 4: ISO-8859-1
Poiché la maggior parte dei paesi usano caratteri ASCII al di fuori, la codifica dei caratteri di default nello standard HTML 2.0 è stato cambiato a ISO-8859-1.
ISO-8859-1 è un'estensione di ASCII, con caratteri internazionali aggiunti. Come ANSI, utilizza un byte completo per rappresentare doppio dei caratteri di ASCII.
Quando i browser rilevano ISO-8859-1 in una pagina web, che normalmente di default per ANSI, ANSI perché è identico a ISO-8859-1, tranne che ANSI ha 32 caratteri extra. |
Se una pagina web HTML 4 utilizza un diverso set di caratteri di ISO-8859-1, deve essere specificato nel <meta> tag:
Il set di caratteri predefinito per HTML5 è UTF-8. |
Per uno sguardo più attento, si prega di studiare la nostra completa riferimento ISO-8859-1 .
In HTML5: Unicode UTF-8
Poiché i set di caratteri di cui sopra sono limitati, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.
Le coperture Unicode standard (quasi) tutti i personaggi, punteggiatura e simboli del mondo.
Unicode permette lavorazione, lo stoccaggio e il trasporto di testo, indipendente dalla piattaforma e del linguaggio.
La codifica dei caratteri di default in HTML5 è UTF-8.
Per uno sguardo più attento, si prega di studiare la nostra completa Unicode di riferimento .