HTML Unicode (UTF-8) Referință

Unicode Consortium

Unicode Consortium dezvolta standardul Unicode. Scopul lor este de a înlocui seturile de caractere existente cu formatul standard de Unicode Transformare (UTF) .

Standardul Unicode a devenit un succes și este implementat în HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. Standardul Unicode este, de asemenea, susținută în multe sisteme de operare și toate browserele moderne.

Unicode Consortium cooperează cu principalele organizații de dezvoltare de standarde, cum ar fi ISO, W3C, și ECMA.

Seturi de caractere Unicode

Unicode pot fi puse în aplicare prin diferite seturi de caractere. Cele mai frecvent utilizate sunt codificări UTF-8 și UTF-16:

Set de caractere	Descriere
UTF-8	Un personaj din UTF8 poate fi de la 1 la 4 octeți lungime. UTF-8 poate reprezenta orice caracter în standardul Unicode. UTF-8 este compatibil cu ASCII. UTF-8 este codificarea preferată pentru paginile de e-mail și web
UTF-16	16-bit Unicode Transformation Format este o codare de caractere de lungime variabilă pentru Unicode, capabil codifica intregul repertoriu Unicode. UTF-16 este utilizat în sisteme și medii de operare majore, cum ar fi Microsoft Windows, Java și .NET.

Tip: Primele 128 de caractere Unicode (which correspond one-to-one with ASCII) sunt codificate utilizând un singur octet cu aceeași valoare binară ca și ASCII, care face ca textul ASCII valid valid UTF-8-codificate Unicode, de asemenea.

HTML 4 suportă UTF-8. HTML 5 suportă atât UTF-8 și UTF-16!

HTML5 Standard: Unicode UTF-8

Deoarece seturile de caractere în ISO-8859 a fost limitat, și nu sunt compatibile în medii multilingve, Unicode Consortium a dezvoltat standardul Unicode.

Capacele Unicode standard (almost) toate caracterele, semnele de punctuație și simbolurile din lume.

Unicode permite prelucrarea, stocarea și transportul independent de text a platformei și de limbă.

Codificarea de caractere implicit în HTML-5 este UTF-8.

Dacă o pagină web HTML5 utilizează un set diferit de caractere decât UTF-8, ar trebui să fie specificat în <meta> tag - ul cum ar fi:

Exemplu

Diferența între Unicode și UTF-8

Unicode este un set de caractere. UTF-8 este de codificare.

Unicode este o listă de caractere cu numere unice zecimale (code points) de (code points) . A = 41, B = 42, C = 43, ....

Această listă de numere zecimale reprezintă șirul de caractere "hello" : 104 101 108 108 111

Codificarea este modul în care aceste numere sunt traduse în numere binare care urmează să fie stocate într-un calculator:

Codificarea UTF-8 va stoca "hello" ca aceasta (binary) : 01101000 01100101 01101100 01101100 01101111

Codificarea se traduce numere în binar. Seturi de caractere se traduce de caractere la numere.

HTML5 UTF-8 coduri de caractere

Mai jos este o listă a unora dintre UTF-8-coduri de caractere acceptate de HTML5:

codurile de caractere	Zecimal	hexazecimal
Controale C0 și de bază Latină	0-127	0000-007F
Controale C1 și Latin-1 Supliment	128-255	0080-00FF
Latină Extended-A	256-383	0100-017F
Latină Extended-B	384-591	0180-024F
Modificatorii spaţiere	688-767	02B0-02FF
diacriticele	768-879	0300-036F
Greacă și coptă	880-1023	0370-03FF
chirilic de bază	1024-1279	0400-04FF
Supliment chirilic	1280-1327	0500-052F
General Punctuația	8192-8303	2000-206F
simboluri monetare	8352-8399	20A0-20CF
Letterlike Simboluri	8448-8527	2100-214F
Săgeți	8592-8703	2190-21FF
Operatorii matematice	8704-8959	2200-22FF
Caseta Desene	9472-9599	2500-257F
Bloc Elemente	9600-9631	2580-259F
Forme geometrice	9632-9727	25A0-25FF
Simboluri Diverse	9728-9983	2600-26FF
dingbats	9984-10175	2700-27BF

❮ Anterior Următor Referință ❯

HTML charsets

HTML UTF-8

HTML simboluri