Pentru a afișa corect o pagină HTML, browser - ul trebuie să știe ce set de caractere (character encoding) de (character encoding) a (character encoding) pentru a utiliza.
Seturi HTML caractere
Care este codificarea corectă a caracterelor pentru a utiliza în HTML?
Pentru HTML5, codificarea caracterelor implicită este UTF-8.
Acest lucru nu a fost întotdeauna cazul. Codificarea caracterelor pentru inceputul web a fost ASCII.
Mai târziu, de la HTML 2.0 HTML 4.01, ISO-8859-1 a fost considerat standard.
Cu XML și HTML5, UTF-8 în cele din urmă a sosit, și a rezolvat o mulțime de probleme de codificare a caracterelor.
Mai jos este o scurtă descriere a standardelor de codificare a caracterelor.
La început: ASCII
Informații de calculator (numbers, texts, and pictures) sunt stocate ca cele binare și zerouri (01000101) , în partea electronică.
Pentru a standardiza stocarea de caractere alfanumerice, Codul standard american pentru schimbul de informații (ASCII) a fost creat. Acesta este definit un număr unic binar 7-biți pentru fiecare caracter ce poate fi stocată pentru a sprijini numerele de la 0-9, superioară / litere mici ale alfabetului englez (az, AZ) , și unele caractere speciale , cum ar fi! $ + - ( ) @ <>.
Din moment ce ASCII utilizează un octet (7 biți pentru caracterul, și unul dintre biți pentru controlul transmisiei de paritate), aceasta ar putea reprezenta doar 128 de caractere diferite. În plus, 32 dintre aceste caractere au fost rezervate pentru alte scopuri de control.
Cea mai mare slăbiciune cu ASCII a fost exclus că litere non engleză.
ASCII este încă utilizat pe scară largă în prezent, în special în sistemele informatice de mare mainframe.
Pentru o privire mai atentă, vă rugăm studiul nostru ASCII complet de referință .
În Windows: ANSI
ANSI (also called Windows-1252) de (also called Windows-1252) , (also called Windows-1252) a fost caracterul setat implicit în Windows, până la Windows 95.
ANSI este o extensie a ASCII, cu caractere internaționale adăugate. Acesta folosește un octet plin (8-bits) pentru a reprezenta 256 de caractere diferite.
Deoarece ANSI a fost caracterul setat implicit în Windows, acesta este suportat de toate browserele.
Pentru o privire mai atentă, vă rugăm studiul nostru complet ANSI referință .
In HTML 4: ISO-8859-1
Deoarece cele mai multe țări folosesc caractere din afara ASCII, codificarea caracterelor implicit în standardul HTML 2.0 a fost schimbat la ISO-8859-1.
ISO-8859-1 este o extensie a ASCII, cu caractere internaționale adăugate. Ca ANSI, foloseste un octet pentru a reprezenta pe deplin de două ori mai multe caractere decât ASCII.
Când browsere detectează ISO-8859-1 într-o pagină web, ei implicit în mod normal, la ANSI, deoarece ANSI este identic cu ISO-8859-1 cu excepția faptului că ANSI are 32 de caractere suplimentare.
Dacă o pagină web HTML 4 foloseste un alt caracter decât set ISO-8859-1, ar trebui să fie specificat în <meta> tag - ul cum ar fi:
Exemplu
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Caracterul implicit setat pentru HTML5 este UTF-8.
Toate HTML 4 procesoare suporta UTF-8, și toate procesoarele HTML5 și XML sprijin atât UTF-8 și UTF-16.
Pentru o privire mai atentă, vă rugăm studiul nostru de referință ISO-8859-1 complet .
În HTML5: Unicode UTF-8
Deoarece seturile de caractere enumerate mai sus sunt limitate și nu sunt compatibile în medii multilingve, Unicode Consortium a dezvoltat standardul Unicode.
Capacele Unicode standard (almost) toate caracterele, semnele de punctuație și simbolurile din lume.
Unicode permite procesarea, stocarea și transportul de text, independent de platformă și limbaj.
Codificarea de caractere implicit în HTML5 este UTF-8.
Pentru o privire mai atentă, vă rugăm studiul nostru Unicode complet de referință .