Unicode協會
Unicode協會開發了Unicode標準。 他們的目標是把它的標準Unicode轉換格式,以取代現有的字符集(UTF)
Unicode標準已經成為一個成功和HTML,XML,Java和JavaScript的,電子郵件,ASP,PHP等Unicode標準實現在許多操作系統和所有現代瀏覽器也支持。
Unicode聯盟與領先的標準開發組織,如ISO,W3C和ECMA合作。
Unicode字符集
統一可以通過不同的字符集來實現。 最常用的編碼是UTF-8和UTF-16:
字符集 | 描述 |
---|---|
UTF-8 | 在UTF8的字符可以是從長1到4個字節。 UTF-8可以表示Unicode標準的任何字符。 UTF-8與ASCII向後兼容。 UTF-8是電子郵件和網頁的首選編碼 |
UTF-16 | 16位Unicode轉換格式為Unicode的可變長度字符編碼,能編碼整個Unicode劇目。 UTF-16是主要的操作系統和環境,比如微軟的Windows,Java和.NET應用。 |
Tip:編碼,它的前128個字符(which correspond one-to-one with ASCII)使用的是單個八位字節具有相同的二進制值作為ASCII編碼,從而有效ASCII文本有效UTF-8編碼的Unicode為好。
HTML 4支持UTF-8。 HTML 5支持UTF-8和UTF-16!
HTML5標準:Unicode的UTF-8
因為在ISO-8859字符集是在大小限制,以及在多語言環境不兼容,Unicode協會開發了Unicode標準。
Unicode標準蓋(almost)所有的字符,標點符號,並在世界上的符號。
Unicode能實現處理,存儲和文本獨立於平台和語言的運輸。
在HTML-5默認的字符編碼是UTF-8。
如果HTML5網頁使用不同的字符集不是UTF-8,它應在指定<meta>標記,如:
例
<meta charset="ISO-8859-1">
Unicode和UTF-8之間的差異
Unicode是一個字符集 。 UTF-8是編碼 。
Unicode是具有獨特的十進制數字字符的列表(code points) 。 A = 41,B = 42,C = 43,....
十進制數的該列表表示字符串"hello" :104 101 108 108 111
編碼是這些數字是如何轉換成二進制數被存儲在計算機:
UTF-8編碼將存儲“你好”像這樣(binary) :01101000 01100101 01101100 01101100 01101111
編碼的數字轉換成二進制。 字符集字符轉換為數字。
HTML5 UTF-8字符代碼
下面是一些由HTML5支持UTF-8字符代碼的列表:
字符代碼 | 十進制 | 十六進制 |
---|---|---|
C0控制和基本拉丁語 | 0-127 | 0000-007F |
C1控件和拉丁語1補充 | 128-255 | 0080-00FF |
拉丁語擴展A | 256-383 | 0100-017F |
拉丁文擴展-B | 384-591 | 0180-024F |
間距修飾符 | 688-767 | 02B0-02FF |
變音符號 | 768-879 | 0300-036F |
希臘和科普特 | 880-1023 | 0370-03FF |
西里爾基本 | 1024-1279 | 0400-04FF |
西里爾文補充 | 1280-1327 | 0500-052F |
一般標點符號 | 8192-8303 | 2000-206F |
貨幣符號 | 8352-8399 | 20A0-20CF |
字母符號 | 8448-8527 | 2100-214F |
箭頭 | 8592-8703 | 2190-21FF |
數學運算符 | 8704-8959 | 2200-22FF |
製表 | 9472-9599 | 2500-257F |
塊元素 | 9600-9631 | 2580-259F |
幾何圖形 | 9632-9727 | 25A0-25FF |
雜項符號 | 9728-9983 | 2600-26FF |
裝飾符號 | 9984-10175 | 2700-27BF |