اتحاد يونيكود
اتحاد يونيكود تطوير معيار يونيكود. هدفهم هو استبدال مجموعات الأحرف الموجودة مع تنسيق يونيكود التحول شعلته (UTF) .
أصبح معيار يونيكود نجاحا ويتم تنفيذه في HTML، XML، جافا، جافا سكريبت، البريد الإلكتروني، ASP، PHP، وما إلى ذلك معيار يونيكود ويدعم أيضا في العديد من أنظمة التشغيل وجميع المتصفحات الحديثة.
وتتعاون هيئة يونيكود مع منظمات وضع المعايير الرائدة، مثل ISO، W3C، وECMA.
مجموعات الأحرف يونيكود
يونيكود يمكن أن تنفذها مجموعات أحرف مختلفة. ترميزات الأكثر شيوعا هي UTF-8 و UTF-16:
مجموعة الأحرف | وصف |
---|---|
UTF-8 | حرف في UTF8 يمكن أن يكون 1-4 بايت. UTF-8 يمكن أن تمثل أي حرف في معيار يونيكود. UTF-8 هو معكوس متوافق مع ASCII. UTF-8 هو الترميز المفضل لصفحات البريد الإلكتروني وشبكة الإنترنت |
UTF-16 | 16-بت تنسيق تحويل Unicode هي ترميز الأحرف متغيرة الطول يونيكود، قادرة على ترميز يونيكود مرجع كامل. يستخدم UTF-16 في النظم وبيئات التشغيل الرئيسية، مثل مايكروسوفت ويندوز، جافا و. NET. |
Tip: الأحرف الأولى من 128 يونيكود (which correspond one-to-one with ASCII) يتم ترميز باستخدام الثماني واحد بنفس قيمة ثنائية كما ASCII، مما يجعل النص ASCII صحيح صحيح UTF-8 ترميز يونيكود كذلك.
HTML 4 يدعم UTF-8. HTML 5 يدعم كلا من UTF-8 و UTF-16!
وHTML5 القياسية: يونيكود UTF-8
لأن مجموعات الأحرف في ISO-8859 تم محدودة الحجم، وغير متوافق في بيئات متعددة اللغات، وضعت هيئة يونيكود معيار يونيكود.
يغطي يونيكود القياسي (almost) كل الشخصيات، علامات ترقيم، والرموز في العالم.
تمكن يونيكود معالجة وتخزين ونقل مستقلة نص منصة واللغة.
ترميز الأحرف الافتراضي في HTML 5 هو UTF-8.
إذا كان يستخدم صفحة ويب HTML5 مجموعة أحرف مختلفة من UTF-8، وينبغي أن تكون محددة في <meta> العلامة مثل:
مثال
<meta charset="ISO-8859-1">
الفرق بين Unicode و UTF-8
Unicode هي مجموعة أحرف. UTF-8 وترميز.
غير يونيكود قائمة الأحرف مع الأرقام العشرية الفريدة (code points) . A = 41، B = 42، C = 43، ....
هذه القائمة من الأرقام العشرية تمثل سلسلة "hello" : 104 101 108 108 111
ترميز هو كيف يتم تحويل هذه الأرقام إلى أرقام ثنائية ليتم تخزينها في جهاز الكمبيوتر:
UTF-8 ترميز وتخزين "مرحبا" مثل هذا (binary) : 01101000 01100101 01101100 01101100 01101111
ترميز يترجم الأرقام في ثنائي. مجموعات الأحرف يترجم الأحرف إلى أرقام.
HTML5 UTF-8 رموز الأحرف
وفيما يلي قائمة ببعض من 8 UTF-رموز الأحرف التي يدعمها HTML5:
رموز الأحرف | عدد عشري | عشري |
---|---|---|
التحكم C0 واللاتينية الأساسية | 0-127 | 0000-007F |
ضوابط C1 واللاتينية-1 الملحق | 128-255 | 0080-00FF |
اللاتينية الموسعة-A | 256-383 | 0100-017F |
اللاتينية الموسعة-B | 384-591 | 0180-024F |
معدلات تباعد | 688-767 | 02B0-02FF |
علامات إعرابية | 768-879 | 0300-036F |
اليونانية والقبطية | 880-1023 | 0370-03FF |
السيريلية الأساسية | 1024-1279 | 0400-04FF |
الملحق السيريلية | 1280-1327 | 0500-052F |
علامات الترقيم عامة | 8192-8303 | 2000-206F |
رموز العملة | 8352-8399 | 20A0-20CF |
رموز علي هيئة أحرف | 8448-8527 | 2100-214F |
السهام | 8592-8703 | 2190-21FF |
الرياضية مشغلي | 8704-8959 | 2200-22FF |
مربع رسومات | 9472-9599 | 2500-257F |
كتلة عناصر | 9600-9631 | 2580-259F |
الأشكال الهندسية | 9632-9727 | 25A0-25FF |
رموز متنوعة | 9728-9983 | 2600-26FF |
دينغ باتس | 9984-10175 | 2700-27BF |