Unicode协会
Unicode协会开发了Unicode标准。 他们的目标是把它的标准Unicode转换格式,以取代现有的字符集(UTF)
Unicode标准已经成为一个成功和HTML,XML,Java和JavaScript的,电子邮件,ASP,PHP等Unicode标准实现在许多操作系统和所有现代浏览器也支持。
Unicode联盟与领先的标准开发组织,如ISO,W3C和ECMA合作。
Unicode字符集
统一可以通过不同的字符集来实现。 最常用的编码是UTF-8和UTF-16:
字符集 | 描述 |
---|---|
UTF-8 | 在UTF8的字符可以是从长1到4个字节。 UTF-8可以表示Unicode标准的任何字符。 UTF-8与ASCII向后兼容。 UTF-8是电子邮件和网页的首选编码 |
UTF-16 | 16位Unicode转换格式为Unicode的可变长度字符编码,能编码整个Unicode剧目。 UTF-16是主要的操作系统和环境,比如微软的Windows,Java和.NET应用。 |
Tip:编码,它的前128个字符(which correspond one-to-one with ASCII)使用的是单个八位字节具有相同的二进制值作为ASCII编码,从而有效ASCII文本有效UTF-8编码的Unicode为好。
HTML 4支持UTF-8。 HTML 5支持UTF-8和UTF-16!
HTML5标准:Unicode的UTF-8
因为在ISO-8859字符集是在大小限制,以及在多语言环境不兼容,Unicode协会开发了Unicode标准。
Unicode标准盖(almost)所有的字符,标点符号,并在世界上的符号。
Unicode能实现处理,存储和文本独立于平台和语言的运输。
在HTML-5默认的字符编码是UTF-8。
如果HTML5网页使用不同的字符集不是UTF-8,它应在指定<meta>标记,如:
例
<meta charset="ISO-8859-1">
Unicode和UTF-8之间的差异
Unicode是一个字符集 。 UTF-8是编码 。
Unicode是具有独特的十进制数字字符的列表(code points) 。 A = 41,B = 42,C = 43,....
十进制数的该列表表示字符串"hello" :104 101 108 108 111
编码是这些数字是如何转换成二进制数被存储在计算机:
UTF-8编码将存储“你好”像这样(binary) :01101000 01100101 01101100 01101100 01101111
编码的数字转换成二进制。 字符集字符转换为数字。
HTML5 UTF-8字符代码
下面是一些由HTML5支持UTF-8字符代码的列表:
字符代码 | 十进制 | 十六进制 |
---|---|---|
C0控制和基本拉丁语 | 0-127 | 0000-007F |
C1控件和拉丁语1补充 | 128-255 | 0080-00FF |
拉丁语扩展A | 256-383 | 0100-017F |
拉丁文扩展-B | 384-591 | 0180-024F |
间距修饰符 | 688-767 | 02B0-02FF |
变音符号 | 768-879 | 0300-036F |
希腊和科普特 | 880-1023 | 0370-03FF |
西里尔基本 | 1024-1279 | 0400-04FF |
西里尔文补充 | 1280-1327 | 0500-052F |
一般标点符号 | 8192-8303 | 2000-206F |
货币符号 | 8352-8399 | 20A0-20CF |
字母符号 | 8448-8527 | 2100-214F |
箭头 | 8592-8703 | 2190-21FF |
数学运算符 | 8704-8959 | 2200-22FF |
制表 | 9472-9599 | 2500-257F |
块元素 | 9600-9631 | 2580-259F |
几何图形 | 9632-9727 | 25A0-25FF |
杂项符号 | 9728-9983 | 2600-26FF |
装饰符号 | 9984-10175 | 2700-27BF |