Il Consorzio Unicode
Il Consorzio Unicode sviluppa lo standard Unicode. Il loro obiettivo è quello di sostituire i set di caratteri esistenti con il suo formato Unicode standard di trasformazione (UTF) .
Lo standard Unicode è diventato un successo e viene implementato in HTML, XML, Java, JavaScript, e-mail, ASP, PHP, ecc Lo standard Unicode è supportato anche in molti sistemi operativi e tutti i browser moderni.
Il Consorzio Unicode collabora con le principali organizzazioni di sviluppo standard, come ISO, W3C e ECMA.
Il set di caratteri Unicode
Unicode può essere implementata da diversi set di caratteri. Le codifiche più comunemente usati sono UTF-8 e UTF-16:
Set di caratteri | Descrizione |
---|---|
UTF-8 | Un personaggio in UTF8 può essere da 1 a 4 byte. UTF-8 può rappresentare qualsiasi carattere nello standard Unicode. UTF-8 è compatibile con ASCII. UTF-8 è la codifica preferito per e-mail e pagine web |
UTF-16 | 16 bit Unicode Transformation Format è una codifica a lunghezza variabile per Unicode, capace di codificare l'intero repertorio Unicode. UTF-16 è utilizzato nei principali sistemi operativi e ambienti, come Microsoft Windows, Java e .NET. |
Tip: I primi 128 caratteri di Unicode (which correspond one-to-one with ASCII) sono codificati utilizzando un singolo ottetto con lo stesso valore binario come ASCII, rendendo testo ASCII valido valido UTF-8-codificato Unicode pure.
HTML 4 supporta UTF-8. HTML 5 supporta sia UTF-8 e UTF-16!
L'HTML5 standard: Unicode UTF-8
Poiché i set di caratteri a ISO-8859 è stato limitato in termini di dimensioni, e non è compatibile in ambienti multilingue, Unicode Consortium ha sviluppato lo standard Unicode.
Le copertine Unicode standard (almost) tutti i personaggi, punteggiatura e simboli del mondo.
Unicode permette lavorazione, lo stoccaggio e il trasporto di testo indipendente dalla piattaforma e del linguaggio.
La codifica dei caratteri di default in HTML-5 è UTF-8.
Se una pagina web HTML5 utilizza un set di caratteri diverso da UTF-8, dovrebbe essere specificato nel <meta> tag come:
Esempio
<meta charset="ISO-8859-1">
La differenza tra Unicode e UTF-8
Unicode è un set di caratteri. UTF-8 è la codifica.
Unicode è un elenco di caratteri con i numeri decimali unici (code points) . A = 41, B = 42, C = 43, ....
Questo elenco di numeri decimali rappresentano la stringa "hello" : 104 101 108 108 111
La codifica è come questi numeri si traducono in numeri binari per essere memorizzati in un computer:
UTF-8 codifica memorizza "ciao" come questo (binary) : 01101000 01100101 01101100 01101100 01.101.111
Codifica traduce i numeri in binario. Set di caratteri per tradurre i caratteri in numeri.
HTML5 UTF-8 codici di carattere
Di seguito è riportato un elenco di alcuni dei caratteri UTF-8 codici di caratteri supportati da HTML5:
codici di carattere | Decimale | esadecimale |
---|---|---|
Controlli C0 e Latino di base | 0-127 | 0000-007F |
Controlli C1 e Latin-1 Supplement | 128-255 | 0080-00FF |
Latino esteso-A | 256-383 | 0100-017F |
Latino esteso-B | 384-591 | 0180-024F |
modificatori di spaziatura | 688-767 | 02B0-02FF |
segni diacritici | 768-879 | 0300-036F |
Greci e copti | 880-1023 | 0370-03FF |
cirillico di base | 1024-1279 | 0400-04FF |
Supplemento cirillico | 1280-1327 | 0500-052F |
Punteggiatura generale | 8192-8303 | 2000-206F |
Simboli di valuta | 8352-8399 | 20A0-20CF |
lettere Simboli | 8448-8527 | 2100-214F |
frecce | 8592-8703 | 2190-21FF |
Operatori matematici | 8704-8959 | 2200-22FF |
Simbolo grafico | 9472-9599 | 2500-257F |
Block Elementi | 9600-9631 | 2580-259F |
Forme geometriche | 9632-9727 | 25A0-25FF |
Simboli vari | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |