Консорциум Unicode
Консорциум Unicode разрабатывает стандарт Unicode. Их цель состоит в том, чтобы заменить существующие наборы символов со стандартным форматом преобразование Unicode (UTF) .
Стандарт Unicode стал успешным, и реализуется в HTML, XML, Java, JavaScript, электронная почта, ASP, PHP и т.д. Стандарт Unicode также поддерживается во многих операционных системах и во всех современных браузерах.
Консорциум Unicode сотрудничает с ведущими организациями по разработке стандартов, таких как ISO, W3C и ECMA.
Наборы символов Unicode
Unicode может быть реализован с помощью различных наборов символов. Наиболее часто используемые кодировки UTF-8 и UTF-16:
Набор символов | Описание |
---|---|
UTF-8 | Персонаж в UTF8 может быть от 1 до 4 байт длиной. UTF-8, может представлять любой символ в стандарте Unicode. UTF-8 обратно совместима с ASCII. UTF-8, является предпочтительным для кодирования сообщений электронной почты и веб-страниц |
UTF-16 | 16-битовый формат преобразования Юникода является кодировка символов переменной длины для Unicode, способна кодировать весь репертуар Unicode. UTF-16 используется в основных операционных системах и средах, таких как Microsoft Windows, Java и .NET. |
Tip: Первые 128 символов Unicode (which correspond one-to-one with ASCII) кодируются с использованием одного октета с тем же двоичным значением в ASCII, что делает действительный текст ASCII действует UTF-8 кодировке Unicode , а также.
HTML 4 поддерживает UTF-8. HTML 5 поддерживает как UTF-8 и UTF-16!
HTML5 стандарт: Unicode, UTF-8,
Поскольку наборы символов в ISO-8859 был ограничен в размерах, и не совместимы в многоязычной среде, Консорциум Unicode разработал стандарт Unicode.
В Unicode Стандартные крышки (almost) все символы, знаки препинания и символы в мире.
Unicode позволяет обработку, хранение и транспортировку текст независимо от платформы и языка.
Кодировка символов по умолчанию в HTML-5 является UTF-8.
Если веб - страница HTML5 использует другой набор символов , чем UTF-8, он должен быть указан в <meta> тэга как:
пример
<meta charset="ISO-8859-1">
Разница между Unicode и UTF-8
Unicode представляет собой набор символов. UTF-8 кодирует.
Unicode список символов с уникальными десятичных чисел (code points) . А = 41, В = 42, С = 43, ....
Этот список десятичных чисел представляют собой строку "hello" : 104 101 108 108 111
Кодирование как эти цифры переводятся в двоичные числа, которые будут храниться в компьютере:
UTF-8 кодировка будет хранить "Привет" , как это (binary) : 01101000 01100101 01101100 01101100 01101111
Кодирование переводит числа в двоичном виде . Наборы символов преобразуют символы цифр.
HTML5 UTF-8 кодов символов
Ниже приведен список некоторых из UTF-8 кодов символов, поддерживаемых HTML5:
Символьные коды | Десятичная дробь | шестнадцатеричный |
---|---|---|
Управление C0 и Basic Latin | 0-127 | 0000-007F |
Элементы управления C1 и Latin-1 Supplement | 128-255 | 0080-00FF |
Расширенная латиница-A | 256-383 | 0100-017F |
Расширенная латиница-B | 384-591 | 0180-024F |
Дистанционные Модификаторы | 688-767 | 02B0-02FF |
диакритические знаки | 768-879 | 0300-036F |
Греческий и коптский | 880-1023 | 0370-03FF |
кириллица Basic | 1024-1279 | 0400-04FF |
кириллица Дополнение | 1280-1327 | 0500-052F |
Общая пунктуация | 8192-8303 | 2000-206F |
Символы валют | 8352-8399 | 20A0-20CF |
Буквоподобные символы | 8448-8527 | 2100-214F |
Стрелки | 8592-8703 | 2190-21FF |
Математические операторы | 8704-8959 | 2200-22FF |
Вставка Чертежи | 9472-9599 | 2500-257F |
Блок элементов | 9600-9631 | 2580-259F |
Геометрические фигуры | 9632-9727 | 25A0-25FF |
Различные символы | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |