لعرض صفحة HTML بشكل صحيح، يجب على المتصفح يعرف ما مجموعة الأحرف (character encoding) للاستخدام.
مجموعات الأحرف HTML
ما هي ترميز الأحرف الصحيحة لاستخدامها في HTML؟
لHTML5، وترميز الأحرف الافتراضي هو UTF-8.
هذة ليست دائما الحالة. وكان ترميز الأحرف لشبكة الإنترنت في وقت مبكر ASCII.
وفي وقت لاحق، من HTML 2.0 إلى HTML 4.01، اعتبر ISO-8859-1 المعيار.
مع XML و HTML5، UTF-8 وصلت أخيرا، وتحل الكثير من المشاكل ترميز الأحرف.
وفيما يلي وصف موجز للمعايير ترميز الأحرف.
في البداية: ASCII
المعلومات الحاسوبية (numbers, texts, and pictures) يتم تخزين عن تلك الثنائية وأصفار (01000101) في الإلكترونيات.
لتوحيد تخزين من الأحرف الأبجدية الرقمية، وقانون القياسية الأمريكية لتبادل المعلومات (ASCII) تم إنشاؤه. وحدد ثنائي رقم فريد 7-بت لكل حرف القابل للتخزين لدعم الأعداد 0-9، والعلوي / انخفاض الحالة الأبجدية الإنجليزية (az, AZ) ، وبعض الرموز الخاصة مثل! $ + - ( ) @ <>.
منذ ASCII تستخدم بايت واحد (7 بت للحرف، واحدة من بت لمراقبة نقل التكافؤ)، ويمكن أن تمثل فقط 128 حرفا مختلفة. وبالإضافة إلى ذلك تم حجز 32 من هذه الشخصيات لأغراض التحكم الأخرى.
وكان أكبر نقطة ضعف مع ASCII أنه استبعاد الرسائل غير الإنجليزية.
ASCII لا يزال قيد الاستخدام على نطاق واسع اليوم، وخاصة في أنظمة الكمبيوتر المركزية الكبيرة.
لالقاء نظرة فاحصة، يرجى دراسة لدينا كاملة ASCII المرجعي .
في Windows: ANSI
ANSI (also called Windows-1252) كان الطابع الافتراضي تعيين في ويندوز، وحتى ويندوز 95.
ANSI هو امتداد لASCII، مع شخصيات دولية المضافة. ويستخدم البايت الكامل (8-bits) لتمثيل 256 حرفا مختلفة.
منذ كان ANSI الطابع الافتراضي تعيين في ويندوز، وكانت مدعومة من قبل جميع المتصفحات.
لالقاء نظرة فاحصة، يرجى دراسة لدينا كاملة ANSI المرجعي .
في HTML 4: ISO-8859-1
وبما أن معظم الدول تستخدم الأحرف خارج ASCII، تم تغيير ترميز الأحرف الافتراضي في معيار HTML 2.0 إلى ISO-8859-1.
ISO-8859-1 هو امتداد لASCII، مع شخصيات دولية المضافة. مثل ANSI، فإنه يستخدم بايت الكامل لتمثيل ضعف عدد الأحرف من ASCII.
عندما كشف المتصفحات ISO-8859-1 في صفحة على شبكة الإنترنت، والتقصير عادة إلى ANSI، لأن ANSI مطابق لISO-8859-1 إلا أن ANSI ديها 32 الأحرف الزائدة.
إذا كان يستخدم صفحة ويب HTML 4 على بعد مجموعة أحرف مختلفة من ISO-8859-1، فإنه يجب أن تكون محددة في <meta> العلامة مثل:
مثال
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
الطابع الافتراضي المحدد لHTML5 هو UTF-8.
كل HTML 4 المعالجات التي تدعم UTF-8، وجميع المعالجات HTML5 و XML دعم كل من UTF-8 و UTF-16.
لالقاء نظرة فاحصة، يرجى دراسة لدينا كاملة المرجعي ISO-8859-1 .
في HTML5: يونيكود UTF-8
لأن مجموعات الأحرف المذكورة أعلاه محدودة، وغير متوافقة في بيئات متعددة اللغات، وضعت هيئة يونيكود معيار يونيكود.
يغطي يونيكود القياسي (almost) كل الشخصيات، علامات ترقيم، والرموز في العالم.
تمكن يونيكود معالجة وتخزين ونقل النص، بغض النظر عن المنصة واللغة.
ترميز الأحرف الافتراضي في HTML5 هو UTF-8.
لالقاء نظرة فاحصة، يرجى دراسة لدينا كاملة المرجعي يونيكود .