لعرض صفحة HTML بشكل صحيح، يجب على المتصفح يعرف ما مجموعة الأحرف (ترميز الأحرف) لاستخدام.
مجموعات الأحرف HTML
ما هو ترميز الأحرف الصحيحة لاستخدامها في HTML؟
ل HTML5، وترميز الأحرف الافتراضي هو UTF-8.
لم يكن هذا هو الحال دائما. كان ترميز الأحرف لشبكة الإنترنت في وقت مبكر ASCII.
وفي وقت لاحق، من HTML 2.0 إلى HTML 4.01، واعتبر ISO-8859-1 المعيار.
مع XML و HTML5، UTF-8 وصلت أخيرا، وتحل الكثير من المشاكل ترميز الأحرف.
وفيما يلي وصف موجز للمعايير ترميز الأحرف.
في البداية: ASCII
يتم تخزين المعلومات الحاسوبية (الأرقام، والنصوص، والصور) عن تلك الثنائية وأصفار (01000101) في الإلكترونيات.
لتوحيد تخزين من الأحرف الأبجدية الرقمية، تم إنشاء الرمز القياسي الأمريكي لتبادل المعلومات (ASCII). وحدد ثنائي رقم فريد 7-بت لكل حرف القابل للتخزين لدعم الأعداد 0-9، والعلوي / انخفاض الحالة الأبجدية الإنجليزية (من الألف إلى الياء، من الألف إلى الياء)، وبعض الرموز الخاصة مثل! $ + - () @ <>.
منذ ASCII تستخدم بايت واحد (7 بت للحرف واحد من بت لمراقبة نقل التكافؤ)، ويمكن أن تمثل فقط 128 حرفا مختلفة. وبالإضافة إلى ذلك تم حجز 32 من هذه الشخصيات لأغراض التحكم الأخرى.
وكان أكبر نقطة ضعف مع ASCII أنه يستبعد الرسائل غير الإنجليزية.
ASCII لا يزال قيد الاستخدام على نطاق واسع اليوم، وخاصة في أنظمة الكمبيوتر المركزية الكبيرة.
لالقاء نظرة فاحصة، يرجى ندرس كاملة ASCII المرجعي .
في نظام التشغيل Windows: ANSI
كان ANSI (وتسمى أيضا ويندوز-1252) والأحرف الافتراضية في ويندوز، وحتى ويندوز 95.
ANSI هو امتداد لASCII، مع شخصيات دولية المضافة. ويستخدم البايت الكامل (8 بت) لتمثيل 256 حرفا مختلفة.
منذ كان ANSI الطابع الافتراضي تعيين في ويندوز، وكانت مدعومة من قبل جميع المتصفحات.
لالقاء نظرة فاحصة، يرجى ندرس الكامل ANSI المرجعي .
في HTML 4: ISO-8859-1
وبما أن معظم الدول تستخدم الأحرف خارج ASCII، تم تغيير ترميز الأحرف الافتراضية في مستوى 2.0 HTML إلى ISO-8859-1.
ISO-8859-1 هو امتداد لASCII، مع شخصيات دولية المضافة. مثل ANSI، فإنه يستخدم بايت الكامل لتمثيل ضعف عدد الأحرف من ASCII.
عندما تكتشف المتصفحات ISO-8859-1 في صفحة على شبكة الإنترنت، والتقصير عادة إلى ANSI، لأن ANSI مطابق لISO-8859-1 إلا أن ANSI ديها 32 الأحرف الزائدة. |
إذا كان يستخدم صفحة ويب HTML 4 على بعد مجموعة أحرف مختلفة من ISO-8859-1، فإنه ينبغي أن يكون محددا في <meta> العلامة:
الأحرف الافتراضية المحددة لHTML5 هو UTF-8. |
لالقاء نظرة فاحصة، يرجى ندرس كاملة المرجعي ISO-8859-1 .
في HTML5: يونيكود UTF-8
لأن مجموعات الأحرف المذكورة أعلاه محدودة، وغير متوافقة في بيئات متعددة اللغات، وضعت هيئة يونيكود معيار يونيكود.
يغطي يونيكود قياسي (تقريبا) كل الشخصيات، علامات ترقيم، والرموز في العالم.
تمكن يونيكود المعالجة والتخزين والنقل من النص، مستقلة عن منصة واللغة.
ترميز الأحرف الافتراضية في HTML5 هو UTF-8.
لالقاء نظرة فاحصة، يرجى ندرس كاملة المرجعي يونيكود .