Для того, чтобы правильно отобразить страницу HTML, браузер должен знать , какой набор символов (character encoding) для использования.
HTML наборы символов
Что такое правильная кодировка символов для использования в HTML?
Для HTML5, кодировка символов по умолчанию является UTF-8.
Это не всегда так. Кодировка символов в начале веб-был ASCII.
Позже, из HTML 2.0 в HTML 4.01, ISO-8859-1 считается стандартом.
С помощью XML и HTML5, UTF-8, наконец, прибыл, и решить много проблем кодирования символов.
Ниже приводится краткое описание стандартов кодирования символов.
В начале: ASCII
Компьютерная информация (numbers, texts, and pictures) хранятся в виде двоичных единиц и нулей (01000101) в электронике.
Для того, чтобы стандартизировать хранение буквенно - цифровых символов, американский стандартный код для обмена информацией (ASCII) была создана. Он определил уникальный двоичный 7-битный номер для каждого хранимого характера для поддержки цифры от 0-9, верхнего / нижнего регистра буквы английского алфавита (az, AZ) , а также некоторые специальные символы , такие как! $ + - ( ) @ <>.
Так как ASCII, используется один байт (7 битов для символа, и один из бит для контроля четности передачи), он может представлять только 128 различных символов. Кроме того 32 из этих символов были зарезервированы для других целей управления.
Самая большая слабость с ASCII была то, что она исключала неанглийское письмо.
ASCII все еще широко используются сегодня, особенно в больших ЭВМ вычислительных систем.
Для более близкого взгляда, пожалуйста , изучить наш полный ASCII Reference .
В Windows: ANSI
ANSI (also called Windows-1252) был набор символов по умолчанию в Windows, вплоть до Windows 95.
ANSI является расширением ASCII, с добавлением международных символов. Он использует полные байты (8-bits) для представления 256 различных символов.
Поскольку ANSI был набор символов по умолчанию в Windows, он поддерживается всеми браузерами.
Для более близкого взгляда, пожалуйста , изучить наш полный ANSI Reference .
В HTML 4: ISO-8859-1
Поскольку большинство стран используют символы за пределами ASCII, кодировка символов по умолчанию в стандарте HTML 2.0 была изменена на ISO-8859-1.
ISO-8859-1 является расширением ASCII, с добавлением международных символов. Как ANSI, он использует полные байты для представления в два раза больше символов, чем ASCII.
Когда браузеры обнаружить ISO-8859-1 на веб-странице, они обычно по умолчанию ANSI, потому что ANSI идентичен ISO-8859-1, за исключением, что ANSI имеет 32 дополнительных символов.
Если веб - страница HTML 4 использует другой символьный набор , чем ISO-8859-1, он должен быть указан в <meta> тэгом как:
пример
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
символов по умолчанию для HTML5 является UTF-8.
Все HTML 4 процессоров поддерживают UTF-8, и все процессоры HTML5 и X поддерживают как UTF-8 и UTF-16.
Для более близкого взгляда, пожалуйста , изучить наш полный ISO-8859-1 Reference .
В HTML5: Unicode, UTF-8,
Поскольку наборы символов, перечисленные выше, ограничены, и не совместимы в многоязычной среде, Консорциум Unicode разработал стандарт Unicode.
В Unicode Стандартные крышки (almost) все символы, знаки препинания и символы в мире.
Unicode позволяет обработку, хранение и транспортировку текста, независимо от платформы и языка.
Кодировка символов по умолчанию в HTML5 является UTF-8.
Для более близкого взгляда, пожалуйста , изучить наш полный справочник Unicode .