最新的Web开发教程
 

HTML的Unicode(UTF-8)参考


Unicode协会

Unicode协会开发了Unicode标准。 他们的目标是把它的标准Unicode转换格式,以取代现有的字符集(UTF)

Unicode标准已经成为一个成功和HTML,XML,Java和JavaScript的,电子邮件,ASP,PHP等Unicode标准实现在许多操作系统和所有现代浏览器也支持。

Unicode联盟与领先的标准开发组织,如ISO,W3C和ECMA合作。


Unicode字符集

统一可以通过不同的字符集来实现。 最常用的编码是UTF-8和UTF-16:

字符集 描述
UTF-8 在UTF8的字符可以是从长1到4个字节。 UTF-8可以表示Unicode标准的任何字符。 UTF-8与ASCII向后兼容。 UTF-8是电子邮件和网页的首选编码
UTF-16 16位Unicode转换格式为Unicode的可变长度字符编码,能编码整个Unicode剧目。 UTF-16是主要的操作系统和环境,比如微软的Windows,Java和.NET应用。

Tip:编码,它的前128个字符(which correspond one-to-one with ASCII)使用的是单个八位字节具有相同的二进制值作为ASCII编码,从而有效ASCII文本有效UTF-8编码的Unicode为好。

HTML 4支持UTF-8。 HTML 5支持UTF-8和UTF-16!


HTML5标准:Unicode的UTF-8

因为在ISO-8859字符集是在大小限制,以及在多语言环境不兼容,Unicode协会开发了Unicode标准。

Unicode标准盖(almost)所有的字符,标点符号,并在世界上的符号。

Unicode能实现处理,存储和文本独立于平台和语言的运输。

在HTML-5默认的字符编码是UTF-8。

如果HTML5网页使用不同的字符集不是UTF-8,它应在指定<meta>标记,如:

<meta charset="ISO-8859-1">

Unicode和UTF-8之间的差异

Unicode是一个字符集 。 UTF-8是编码

Unicode是具有独特的十进制数字字符的列表(code points) 。 A = 41,B = 42,C = 43,....

十进制数的该列表表示字符串"hello" :104 101 108 108 111

编码是这些数字是如何转换成二进制数被存储在计算机:

UTF-8编码将存储“你好”像这样(binary) :01101000 01100101 01101100 01101100 01101111

编码的数字转换成二进制。 字符集字符转换为数字。


HTML5 UTF-8字符代码

下面是一些由HTML5支持UTF-8字符代码的列表:

字符代码 十进制 十六进制
C0控制和基本拉丁语 0-1270000-007F
C1控件和拉丁语1补充 128-2550080-00FF
拉丁语扩展A 256-3830100-017F
拉丁文扩展-B 384-5910180-024F
间距修饰符 688-76702B0-02FF
变音符号 768-8790300-036F
希腊和科普特 880-10230370-03FF
西里尔基本 1024-12790400-04FF
西里尔文补充 1280-13270500-052F
一般标点符号 8192-83032000-206F
货币符号 8352-839920A0-20CF
字母符号 8448-85272100-214F
箭头 8592-87032190-21FF
数学运算符 8704-89592200-22FF
制表 9472-95992500-257F
块元素 9600-96312580-259F
几何图形 9632-972725A0-25FF
杂项符号 9728-99832600-26FF
装饰符号 9984-101752700-27BF