要正确显示HTML页面,浏览器必须知道什么字符集(字符编码)来使用。
HTML字符集
什么是正确的字符编码在HTML中使用?
对于HTML5,默认的字符编码是UTF-8。
这并非总是如此。 对于早期的网络字符编码是ASCII。
后来,从HTML 2.0到HTML 4.01,ISO-8859-1被认为是标准。
XML和HTML 5,UTF-8终于到了,解决了很多的字符编码问题。
下面是字符编码标准的简要说明。
在起点:ASCII
计算机信息(数字,文本,和图片)被存储为在电子二进制一和零(01000101)。
为规范的字母数字字符存储,美国标准信息交换码(ASCII)已创建。 它定义为每个存储字符唯一的二进制7位数字从0-9支持数字,大/小写英文字母(AZ,AZ),以及一些特殊字符,如! $ + - ()@ <>。
因为ASCII使用的一个字节(对于字符7位,和用于传输的奇偶校验控制位中的一个),它只能表示128个不同的字符。 此外,这些字符32保留给其它控制的目的。
与ASCII最大的弱点是,它排除了非英文字母。
ASCII至今仍在广泛使用,特别是在大型计算机系统。
仔细看看,请学习我们完整的ASCII参考 。
在Windows中:ANSI
ANSI(也称为Windows-1252)是默认字符在Windows中设置,最多到Windows 95。
ANSI是一个扩展ASCII码,添加了国际字符。 它采用的是全字节(8位)来表示256个不同的字符。
ANSI以来一直是默认的字符在Windows中设置,它是由所有的浏览器都支持。
仔细看看,请学习我们完整的ANSI参考 。
在HTML 4:ISO-8859-1
由于大多数国家使用外ASCII字符,在HTML 2.0标准默认的字符编码更改为ISO-8859-1。
ISO-8859-1是一个扩展ASCII码,添加了国际字符。 ANSI一样,它采用了全字节来表示两倍多的字符不是ASCII。
当浏览器检测网页ISO-8859-1,他们通常默认为ANSI,因为ANSI是相同的ISO-8859-1除了ANSI有32个额外的字符。 |
如果HTML 4网页使用了不同的字符集不是ISO-8859-1,它应该在指定<meta>标签:
对于HTML5的默认字符集是UTF-8。 |
仔细看看,请学习我们完整的ISO-8859-1参考 。
在HTML5:Unicode的UTF-8
由于上面列出的字符集是有限的,在多语言环境不兼容,Unicode协会开发了Unicode标准。
Unicode标准盖(几乎)所有的字符,标点符号,和世界的符号。
Unicode能实现处理,存储和文字的运输,独立于平台和语言。
在HTML5默认的字符编码是UTF-8。
仔细看看,请学习我们完整的Unicode参考 。