最新的Web开发教程
 

HTML字符集


要正确显示HTML页面,浏览器必须知道什么字符集(character encoding)使用。


HTML字符集

什么是正确的字符编码的HTML使用?

对于HTML5,默认的字符编码是UTF-8。

这并非一直如此。 对于早期的网络字符编码为ASCII。

后来,从HTML 2.0到HTML 4.01,ISO-8859-1被认为是标准。

随着XML和HTML 5,UTF-8终于到了,解决了很多的字符编码问题。

下面的字符编码标准的简要描述。


在起点:ASCII

计算机信息(numbers, texts, and pictures)存储为二进制1和0 (01000101)在电子。

为规范的字母数字字符存储,美国标准信息交换码(ASCII)已创建。 它定义为每个存储字符唯一的二进制7位号码从0-9支持数字,大/小写英文字母(az, AZ)以及一些特殊字符,如! $ + - ( ) @ <>。

由于ASCII使用的一个字节(对于字符7位,和用于传输的奇偶性控制位中的一个),它只能表示128个不同的字符。 另外,这些字符的32人保留用于其它控制目的。

与ASCII最大的弱点是,它排除非英文字母。

ASCII至今仍在广泛使用,尤其是在大型计算机系统。

仔细看看,请学习我们完整的ASCII参考


在Windows中:ANSI

ANSI (also called Windows-1252)是默认的字符在Windows中设置,最多到Windows 95。

ANSI是一个扩展ASCII码,添加了国际字符。 它使用一个完整的字节(8-bits)来表示256个不同的字符。

由于ANSI一直默认的字符在Windows中设置,它是由所有的浏览器都支持。

仔细看看,请学习我们完整的ANSI参考


在HTML 4:ISO-8859-1

由于大多数国家使用外ASCII字符,在HTML 2.0标准默认的字符编码更改为ISO-8859-1。

ISO-8859-1的一个扩展ASCII,添加了国际字符。 ANSI一样,它采用了全字节来表示的两倍多字符比ASCII。

当浏览器检测网页中的ISO-8859-1,他们通常默认为ANSI,因为ANSI是相同的ISO-8859-1除了ANSI有32个额外的字符。

如果HTML 4网页使用了不同的字符集不是ISO-8859-1,它应该在指定<meta>标记,如:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">

对于HTML5的默认字符集是UTF-8。
所有HTML 4个处理器支持UTF-8,以及所有HTML5和XML处理器支持UTF-8和UTF-16。

仔细看看,请学习我们完整的ISO-8859-1参考


在HTML5:Unicode的UTF-8

由于上面列出的字符集是有限的,在多语言环境不兼容,Unicode协会开发了Unicode标准。

Unicode标准盖(almost)所有的字符,标点符号,并在世界上的符号。

Unicode能实现处理,存储和文本的传输,独立于平台和语言。

在HTML5默认的字符编码是UTF-8。

仔细看看,请学习我们完整的Unicode参考