最新的Web開發教程
 

HTML的Unicode(UTF-8)參考


Unicode協會

Unicode協會開發了Unicode標準。 他們的目標是把它的標準Unicode轉換格式,以取代現有的字符集(UTF)

Unicode標準已經成為一個成功和HTML,XML,Java和JavaScript的,電子郵件,ASP,PHP等Unicode標準實現在許多操作系統和所有現代瀏覽器也支持。

Unicode聯盟與領先的標準開發組織,如ISO,W3C和ECMA合作。


Unicode字符集

統一可以通過不同的字符集來實現。 最常用的編碼是UTF-8和UTF-16:

字符集 描述
UTF-8 在UTF8的字符可以是從長1到4個字節。 UTF-8可以表示Unicode標準的任何字符。 UTF-8與ASCII向後兼容。 UTF-8是電子郵件和網頁的首選編碼
UTF-16 16位Unicode轉換格式為Unicode的可變長度字符編碼,能編碼整個Unicode劇目。 UTF-16是主要的操作系統和環境,比如微軟的Windows,Java和.NET應用。

Tip:編碼,它的前128個字符(which correspond one-to-one with ASCII)使用的是單個八位字節具有相同的二進制值作為ASCII編碼,從而有效ASCII文本有效UTF-8編碼的Unicode為好。

HTML 4支持UTF-8。 HTML 5支持UTF-8和UTF-16!


HTML5標準:Unicode的UTF-8

因為在ISO-8859字符集是在大小限制,以及在多語言環境不兼容,Unicode協會開發了Unicode標準。

Unicode標準蓋(almost)所有的字符,標點符號,並在世界上的符號。

Unicode能實現處理,存儲和文本獨立於平台和語言的運輸。

在HTML-5默認的字符編碼是UTF-8。

如果HTML5網頁使用不同的字符集不是UTF-8,它應在指定<meta>標記,如:

<meta charset="ISO-8859-1">

Unicode和UTF-8之間的差異

Unicode是一個字符集 。 UTF-8是編碼

Unicode是具有獨特的十進制數字字符的列表(code points) 。 A = 41,B = 42,C = 43,....

十進制數的該列表表示字符串"hello" :104 101 108 108 111

編碼是這些數字是如何轉換成二進制數被存儲在計算機:

UTF-8編碼將存儲“你好”像這樣(binary) :01101000 01100101 01101100 01101100 01101111

編碼的數字轉換成二進制。 字符集字符轉換為數字。


HTML5 UTF-8字符代碼

下面是一些由HTML5支持UTF-8字符代碼的列表:

字符代碼 十進制 十六進制
C0控制和基本拉丁語 0-1270000-007F
C1控件和拉丁語1補充 128-2550080-00FF
拉丁語擴展A 256-3830100-017F
拉丁文擴展-B 384-5910180-024F
間距修飾符 688-76702B0-02FF
變音符號 768-8790300-036F
希臘和科普特 880-10230370-03FF
西里爾基本 1024-12790400-04FF
西里爾文補充 1280-13270500-052F
一般標點符號 8192-83032000-206F
貨幣符號 8352-839920A0-20CF
字母符號 8448-85272100-214F
箭頭 8592-87032190-21FF
數學運算符 8704-89592200-22FF
製表 9472-95992500-257F
塊元素 9600-96312580-259F
幾何圖形 9632-972725A0-25FF
雜項符號 9728-99832600-26FF
裝飾符號 9984-101752700-27BF