Aby poprawnie wyświetlić stronę HTML, przeglądarka musi wiedzieć, co zestaw znaków (character encoding) używać.
HTML Zestawy znaków
Co to jest poprawne kodowanie znaków do wykorzystania w HTML?
Dla HTML5, domyślne kodowanie znaków UTF-8.
Nie zawsze tak było. Kodowanie znaków dla wczesnej internecie był ASCII.
Później, z HTML 2.0 do HTML 4.01, ISO-8859-1 został uznany za standard.
XML i HTML5, UTF-8 w końcu przybył, i rozwiązać wiele problemów kodowania znaków.
Poniżej znajduje się krótki opis standardów kodowania znaków.
Na początku: ASCII
Informacje o komputerze (numbers, texts, and pictures) jest przechowywana jako binarne zer i jedynek (01000101) w elektronice.
Aby ujednolicić przechowywanie znaków alfanumerycznych, American Standard Code for Information Interchange (ASCII) został utworzony. To definiuje unikalny binarny numer 7-bitów dla każdego znaku chowanym w celu wspierania numerów od 0-9, górna / dolna przypadek alfabetu angielskiego (az, AZ) , a niektóre znaki specjalne, takie jak! + $ - ( ) @ <>.
Od ASCII używany jeden bajt (7 bitów dla charakteru i jeden bit parzystości dla kontroli transmisji), może to stanowić jedynie 128 różnych znaków. Ponadto 32 z tych znaków były zarezerwowane dla innych celów kontrolnych.
Największą słabością z ASCII było to, że wykluczone są w angielskich liter.
ASCII jest nadal w powszechnym użyciu do dziś, zwłaszcza w dużych systemach komputerowych mainframe.
Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ASCII Reference .
W systemie Windows: ANSI
ANSI (also called Windows-1252) był domyślny zestaw znaków w systemie Windows, do Windows 95.
ANSI jest rozszerzeniem ASCII, z dodatkiem znaków międzynarodowych. Wykorzystuje pełnego bajtu (8-bits) do reprezentowania 256 różnych postaci.
Od ANSI jest domyślny zestaw znaków w systemie Windows, to jest obsługiwane przez wszystkie przeglądarki.
Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ANSI Reference .
W HTML 4: ISO-8859-1
Ponieważ większość krajów używać znaków spoza ASCII, domyślne kodowanie znaków w standardzie HTML 2.0 została zmieniona na ISO-8859-1.
ISO-8859-1 jest rozszerzeniem ASCII, z dodatkiem znaków międzynarodowych. Jak ANSI, używa pełny bajt reprezentuje dwa razy więcej znaków niż ASCII.
Kiedy przeglądarek wykryć ISO-8859-1 na stronie internetowej, zazwyczaj domyślnie ANSI, ponieważ ANSI jest identyczny z ISO-8859-1 z wyjątkiem, że ANSI posiada 32 dodatkowych znaków.
Jeżeli HTML 4 strona używa innego zestawu znaków niż ISO-8859-1, powinien być określony w <meta> tag jak:
Przykład
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
Domyślną zestaw znaków dla HTML5 jest UTF-8.
Wszystkie 4 procesory obsługują HTML UTF-8, a wszystkie procesory XML i HTML5 obsługują zarówno UTF-8 i UTF-16.
Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna ISO-8859-1 Reference .
W HTML5: Unicode UTF-8
Ponieważ zestawy znaków wymienione powyżej są ograniczone, a nie jest kompatybilny w środowiskach wielojęzycznych Konsorcjum Unicode opracowany standard Unicode.
Pokrywy Standardowe Unicode (almost) wszystkie znaki, znaki przestankowe i symbole świata.
Unicode umożliwia przetwarzanie, przechowywanie i transport tekstu, niezależne od platformy i języka.
Domyślne kodowanie znaków w HTML5 jest UTF-8.
Dla bliższego spojrzenia, prosimy o zapoznania się z naszą Kompletna Reference Unicode .