Unicode Consortium
Unicode Consortium dezvolta standardul Unicode. Scopul lor este de a înlocui seturile de caractere existente cu formatul standard de Unicode Transformare (UTF) .
Standardul Unicode a devenit un succes și este implementat în HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. Standardul Unicode este, de asemenea, susținută în multe sisteme de operare și toate browserele moderne.
Unicode Consortium cooperează cu principalele organizații de dezvoltare de standarde, cum ar fi ISO, W3C, și ECMA.
Seturi de caractere Unicode
Unicode pot fi puse în aplicare prin diferite seturi de caractere. Cele mai frecvent utilizate sunt codificări UTF-8 și UTF-16:
Set de caractere | Descriere |
---|---|
UTF-8 | Un personaj din UTF8 poate fi de la 1 la 4 octeți lungime. UTF-8 poate reprezenta orice caracter în standardul Unicode. UTF-8 este compatibil cu ASCII. UTF-8 este codificarea preferată pentru paginile de e-mail și web |
UTF-16 | 16-bit Unicode Transformation Format este o codare de caractere de lungime variabilă pentru Unicode, capabil codifica intregul repertoriu Unicode. UTF-16 este utilizat în sisteme și medii de operare majore, cum ar fi Microsoft Windows, Java și .NET. |
Tip: Primele 128 de caractere Unicode (which correspond one-to-one with ASCII) sunt codificate utilizând un singur octet cu aceeași valoare binară ca și ASCII, care face ca textul ASCII valid valid UTF-8-codificate Unicode, de asemenea.
HTML 4 suportă UTF-8. HTML 5 suportă atât UTF-8 și UTF-16!
HTML5 Standard: Unicode UTF-8
Deoarece seturile de caractere în ISO-8859 a fost limitat, și nu sunt compatibile în medii multilingve, Unicode Consortium a dezvoltat standardul Unicode.
Capacele Unicode standard (almost) toate caracterele, semnele de punctuație și simbolurile din lume.
Unicode permite prelucrarea, stocarea și transportul independent de text a platformei și de limbă.
Codificarea de caractere implicit în HTML-5 este UTF-8.
Dacă o pagină web HTML5 utilizează un set diferit de caractere decât UTF-8, ar trebui să fie specificat în <meta> tag - ul cum ar fi:
Exemplu
<meta charset="ISO-8859-1">
Diferența între Unicode și UTF-8
Unicode este un set de caractere. UTF-8 este de codificare.
Unicode este o listă de caractere cu numere unice zecimale (code points) de (code points) . A = 41, B = 42, C = 43, ....
Această listă de numere zecimale reprezintă șirul de caractere "hello" : 104 101 108 108 111
Codificarea este modul în care aceste numere sunt traduse în numere binare care urmează să fie stocate într-un calculator:
Codificarea UTF-8 va stoca "hello" ca aceasta (binary) : 01101000 01100101 01101100 01101100 01101111
Codificarea se traduce numere în binar. Seturi de caractere se traduce de caractere la numere.
HTML5 UTF-8 coduri de caractere
Mai jos este o listă a unora dintre UTF-8-coduri de caractere acceptate de HTML5:
codurile de caractere | Zecimal | hexazecimal |
---|---|---|
Controale C0 și de bază Latină | 0-127 | 0000-007F |
Controale C1 și Latin-1 Supliment | 128-255 | 0080-00FF |
Latină Extended-A | 256-383 | 0100-017F |
Latină Extended-B | 384-591 | 0180-024F |
Modificatorii spaţiere | 688-767 | 02B0-02FF |
diacriticele | 768-879 | 0300-036F |
Greacă și coptă | 880-1023 | 0370-03FF |
chirilic de bază | 1024-1279 | 0400-04FF |
Supliment chirilic | 1280-1327 | 0500-052F |
General Punctuația | 8192-8303 | 2000-206F |
simboluri monetare | 8352-8399 | 20A0-20CF |
Letterlike Simboluri | 8448-8527 | 2100-214F |
Săgeți | 8592-8703 | 2190-21FF |
Operatorii matematice | 8704-8959 | 2200-22FF |
Caseta Desene | 9472-9599 | 2500-257F |
Bloc Elemente | 9600-9631 | 2580-259F |
Forme geometrice | 9632-9727 | 25A0-25FF |
Simboluri Diverse | 9728-9983 | 2600-26FF |
dingbats | 9984-10175 | 2700-27BF |