要正確顯示HTML頁面,瀏覽器必須知道什麼字符集(字符編碼)來使用。
HTML字符集
什麼是正確的字符編碼在HTML中使用?
對於HTML5,默認的字符編碼是UTF-8。
這並非總是如此。 對於早期的網絡字符編碼是ASCII。
後來,從HTML 2.0到HTML 4.01,ISO-8859-1被認為是標準。
XML和HTML 5,UTF-8終於到了,解決了很多的字符編碼問題。
下面是字符編碼標準的簡要說明。
在起點:ASCII
計算機信息(數字,文本,和圖片)被存儲為在電子二進制一和零(01000101)。
為規範的字母數字字符存儲,美國標準信息交換碼(ASCII)已創建。 它定義為每個存儲字符唯一的二進制7位數字從0-9支持數字,大/小寫英文字母(AZ,AZ),以及一些特殊字符,如! $ + - ()@ <>。
因為ASCII使用的一個字節(對於字符7位,和用於傳輸的奇偶校驗控制位中的一個),它只能表示128個不同的字符。 此外,這些字符32保留給其它控制的目的。
與ASCII最大的弱點是,它排除了非英文字母。
ASCII至今仍在廣泛使用,特別是在大型計算機系統。
仔細看看,請學習我們完整的ASCII參考 。
在Windows中:ANSI
ANSI(也稱為Windows-1252)是默認字符在Windows中設置,最多到Windows 95。
ANSI是一個擴展ASCII碼,添加了國際字符。 它採用的是全字節(8位)來表示256個不同的字符。
ANSI以來一直是默認的字符在Windows中設置,它是由所有的瀏覽器都支持。
仔細看看,請學習我們完整的ANSI參考 。
在HTML 4:ISO-8859-1
由於大多數國家使用外ASCII字符,在HTML 2.0標準默認的字符編碼更改為ISO-8859-1。
ISO-8859-1是一個擴展ASCII碼,添加了國際字符。 ANSI一樣,它採用了全字節來表示兩倍多的字符不是ASCII。
當瀏覽器檢測網頁ISO-8859-1,他們通常默認為ANSI,因為ANSI是相同的ISO-8859-1除了ANSI有32個額外的字符。 |
如果HTML 4網頁使用了不同的字符集不是ISO-8859-1,它應該在指定<meta>標籤:
對於HTML5的默認字符集是UTF-8。 |
仔細看看,請學習我們完整的ISO-8859-1參考 。
在HTML5:Unicode的UTF-8
由於上面列出的字符集是有限的,在多語言環境不兼容,Unicode協會開發了Unicode標準。
Unicode標準蓋(幾乎)所有的字符,標點符號,和世界的符號。
Unicode能實現處理,存儲和文字的運輸,獨立於平台和語言。
在HTML5默認的字符編碼是UTF-8。
仔細看看,請學習我們完整的Unicode參考 。