最新的Web开发教程
 

HTML字符集


要正确显示HTML页面,浏览器必须知道什么字符集(字符编码)来使用。


HTML字符集

什么是正确的字符编码在HTML中使用?

对于HTML5,默认的字符编码是UTF-8。

这并非总是如此。 对于早期的网络字符编码是ASCII。

后来,从HTML 2.0到HTML 4.01,ISO-8859-1被认为是标准。

XML和HTML 5,UTF-8终于到了,解决了很多的字符编码问题。

下面是字符编码标准的简要说明。


在起点:ASCII

计算机信息(数字,文本,和图片)被存储为在电子二进制一和零(01000101)。

为规范的字母数字字符存储,美国标准信息交换码(ASCII)已创建。 它定义为每个存储字符唯一的二进制7位数字从0-9支持数字,大/小写英文字母(AZ,AZ),以及一些特殊字符,如! $ + - ()@ <>。

因为ASCII使用的一个字节(对于字符7位,和用于传输的奇偶校验控制位中的一个),它只能表示128个不同的字符。 此外,这些字符32保留给其它控制的目的。

与ASCII最大的弱点是,它排除了非英文字母。

ASCII至今仍在广泛使用,特别是在大型计算机系统。

仔细看看,请学习我们完整的ASCII参考


在Windows中:ANSI

ANSI(也称为Windows-1252)是默认字符在Windows中设置,最多到Windows 95。

ANSI是一个扩展ASCII码,添加了国际字符。 它采用的是全字节(8位)来表示256个不同的字符。

ANSI以来一直是默认的字符在Windows中设置,它是由所有的浏览器都支持。

仔细看看,请学习我们完整的ANSI参考


在HTML 4:ISO-8859-1

由于大多数国家使用外ASCII字符,在HTML 2.0标准默认的字符编码更改为ISO-8859-1。

ISO-8859-1是一个扩展ASCII码,添加了国际字符。 ANSI一样,它采用了全字节来表示两倍多的字符不是ASCII。

注意 当浏览器检测网页ISO-8859-1,他们通常默认为ANSI,因为ANSI是相同的ISO-8859-1除了ANSI有32个额外的字符。

如果HTML 4网页使用了不同的字符集不是ISO-8859-1,它应该在指定<meta>标签:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
试一试»

注意

对于HTML5的默认字符集是UTF-8。
所有HTML 4处理器支持UTF-8,以及所有HTML5和XML处理器支持UTF-8和UTF-16。

仔细看看,请学习我们完整的ISO-8859-1参考


在HTML5:Unicode的UTF-8

由于上面列出的字符集是有限的,在多语言环境不兼容,Unicode协会开发了Unicode标准。

Unicode标准盖(几乎)所有的字符,标点符号,和世界的符号。

Unicode能实现处理,存储和文字的运输,独立于平台和语言。

在HTML5默认的字符编码是UTF-8。

仔细看看,请学习我们完整的Unicode参考