ยูนิโค้ด Consortium
ยูนิโค้ด Consortium พัฒนามาตรฐาน Unicode เป้าหมายของพวกเขาคือการเปลี่ยนชุดตัวอักษรที่มีอยู่กับรูปแบบ Unicode การเปลี่ยนแปลงมาตรฐาน (UTF)
มาตรฐาน Unicode ได้กลายเป็นที่ประสบความสำเร็จและมีการใช้งานในรูปแบบ HTML, XML, Java, JavaScript, E-mail, ASP, PHP, ฯลฯ มาตรฐาน Unicode ยังสนับสนุนในระบบปฏิบัติการจำนวนมากและเบราว์เซอร์ที่ทันสมัย
ยูนิโค้ด Consortium ร่วมมือกับองค์กรพัฒนามาตรฐานชั้นนำเช่น ISO, W3C และ ECMA
ยูนิโค้ดชุดตัวอักษร
Unicode สามารถดำเนินการโดยชุดตัวอักษรที่แตกต่างกัน การเข้ารหัสที่ใช้กันมากที่สุดคือ UTF-8 และ UTF-16:
ชุดตัวอักษร | ลักษณะ |
---|---|
UTF-8 | ตัวละครใน UTF8 สามารถเป็น 1-4 ไบต์นาน UTF-8 สามารถเป็นตัวแทนของตัวอักษรใด ๆ ในมาตรฐาน Unicode UTF-8 จะย้อนกลับเข้ากันได้กับ ASCII UTF-8 คือการเข้ารหัสที่แนะนำสำหรับ e-mail และหน้าเว็บ |
UTF-16 | 16 บิตรูปแบบการแปลง Unicode คือการเข้ารหัสอักขระยาวตัวแปรสำหรับ Unicode ความสามารถในการเข้ารหัสละคร Unicode ทั้งหมด UTF-16 จะใช้ในระบบปฏิบัติการหลักและสภาพแวดล้อมเช่น Microsoft Windows, Java และ .NET |
Tip: 128 ตัวอักษรแรกของ Unicode (which correspond one-to-one with ASCII) จะถูกเข้ารหัสโดยใช้ octet เดียวกับค่าไบนารีเช่นเดียวกับ ASCII ทำให้ข้อความ ASCII ที่ถูกต้องที่ถูกต้อง UTF-8 เข้ารหัส Unicode เช่นกัน
HTML 4 รองรับ UTF-8 HTML 5 สนับสนุนทั้ง UTF-8 และ UTF-16!
HTML5 มาตรฐาน Unicode UTF-8
เพราะชุดตัวอักษรใน ISO-8859 ถูก จำกัด ในขนาดและเข้ากันไม่ได้ในสภาพแวดล้อมที่พูดได้หลายภาษาที่ Unicode Consortium พัฒนามาตรฐาน Unicode
ครอบคลุมมาตรฐาน Unicode (almost) ทุกตัวอักษร, เครื่องหมายวรรคตอนและสัญลักษณ์ในโลก
Unicode ช่วยให้การประมวลผล, การจัดเก็บและการขนส่งของอิสระข้อความของแพลตฟอร์มและภาษา
การเข้ารหัสตัวอักษรเริ่มต้นใน HTML-5 เป็น UTF-8
หากหน้าเว็บ HTML5 ใช้ชุดตัวอักษรที่แตกต่างกันกว่า UTF-8 ก็ควรจะระบุไว้ใน <meta> แท็กที่ชอบ:
ตัวอย่าง
<meta charset="ISO-8859-1">
ความแตกต่างระหว่าง Unicode และ UTF-8
Unicode เป็นชุดตัวอักษร UTF-8 คือการเข้ารหัส
Unicode คือรายการของตัวละครที่มีตัวเลขทศนิยมที่ไม่ซ้ำกัน (code points) A = 41, B = 42, C = 43, ....
รายการของตัวเลขทศนิยมนี้แทนสตริง "hello" : 104 101 108 108 111
การเข้ารหัสเป็นวิธีการที่ตัวเลขเหล่านี้จะถูกแปลงเลขฐานสองจะถูกเก็บไว้ในเครื่องคอมพิวเตอร์:
เข้ารหัส UTF-8 จะเก็บ "สวัสดี" เช่นนี้ (binary) : 01101000 01100101 01101100 01101100 01101111
การเข้ารหัสแปลตัวเลขลงในไบนารี ชุดตัวอักษรแปลตัวอักษรกับตัวเลข
HTML5 UTF-8 รหัสอักขระ
ด้านล่างเป็นรายการของบางส่วนของ UTF-8 รหัสอักขระที่สนับสนุนโดย HTML5 นี้:
รหัสอักขระ | ทศนิยม | เลขฐานสิบหก |
---|---|---|
การควบคุม C0 และพื้นฐานภาษาละติน | 0-127 | 0000-007F |
การควบคุม C1 และละติน-1 เสริม | 128-255 | 0080-00FF |
ขยายละติน-A | 256-383 | 0100-017F |
ขยายละติน-B | 384-591 | 0180-024F |
ปรับเปลี่ยนการเว้นวรรค | 688-767 | 02B0-02FF |
ออกเสียงวรรณยุกต์ | 768-879 | 0300-036F |
กรีกและชาวอียิปต์โบราณ | 880-1023 | 0370-03FF |
ซีริลลิพื้นฐาน | 1024-1279 | 0400-04FF |
เสริมริลลิก | 1280-1327 | 0500-052F |
เครื่องหมายวรรคตอนทั่วไป | 8192-8303 | 2000-206F |
สัญลักษณ์สกุลเงิน | 8352-8399 | 20A0-20CF |
Letterlike สัญลักษณ์ | 8448-8527 | 2100-214F |
ลูกศร | 8592-8703 | 2190-21FF |
ดำเนินการทางคณิตศาสตร์ | 8704-8959 | 2200-22FF |
ภาพวาดกล่อง | 9472-9599 | 2500-257F |
องค์ประกอบของบล็อก | 9600-9631 | 2580-259F |
รูปทรงเรขาคณิต | 9632-9727 | 25A0-25FF |
สัญลักษณ์เบ็ดเตล็ด | 9728-9983 | 2600-26FF |
Dingbats | 9984-10175 | 2700-27BF |