ในการแสดงหน้าเว็บ HTML ได้อย่างถูกต้อง, เบราว์เซอร์จะต้องรู้ว่าสิ่งที่ชุดอักขระ (character encoding) ที่จะใช้
HTML ชุดตัวอักษร
การเข้ารหัสอักขระที่ถูกต้องเพื่อใช้ใน HTML คืออะไร?
สำหรับ HTML5, การเข้ารหัสอักขระเริ่มต้นเป็น UTF-8
นี้ยังไม่ได้รับเสมอกรณี การเข้ารหัสตัวอักษรสำหรับเว็บต้นเป็น ASCII
ต่อมาจาก HTML 2.0 เพื่อ HTML 4.01, ISO-8859-1 ได้รับการพิจารณามาตรฐาน
กับ XML และ HTML5, UTF-8 ในที่สุดก็มาถึงและการแก้ไขปัญหามากเข้ารหัสตัวอักษร
ด้านล่างเป็นคำอธิบายสั้น ๆ ของมาตรฐานการเข้ารหัสอักขระ
ในการเริ่มต้น: ASCII
ข้อมูลคอมพิวเตอร์ (numbers, texts, and pictures) จะถูกเก็บเป็นคนไบนารีและศูนย์ (01000101) ในอุปกรณ์อิเล็กทรอนิกส์
เพื่อสร้างมาตรฐานการจัดเก็บตัวเลขและตัวอักษรที่รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล (ASCII) ถูกสร้างขึ้น มันกำหนดไบนารีจำนวน 7 บิตเฉพาะสำหรับแต่ละตัวละครที่สามารถจัดเก็บเพื่อสนับสนุนตัวเลข 0-9, บน / กรณีที่ต่ำกว่าอักษรภาษาอังกฤษ (az, AZ) และบางตัวอักษรพิเศษเช่น! $ + - ( ) @ <>
ตั้งแต่ ASCII ใช้หนึ่งไบต์ (7 บิตสำหรับตัวละครและเป็นหนึ่งในบิตสำหรับการควบคุมการส่งความเท่าเทียมกัน) ก็จะเป็นตัวแทนของ 128 ตัวอักษรที่แตกต่างกัน นอกจากนี้ใน 32 ของตัวละครเหล่านี้ถูกสงวนไว้สำหรับวัตถุประสงค์ในการควบคุมอื่น ๆ
จุดอ่อนที่ใหญ่ที่สุดกับ ASCII คือการที่มันได้รับการยกเว้นตัวอักษรที่ไม่ใช่ภาษาอังกฤษ
ASCII ยังคงอยู่ในการใช้อย่างแพร่หลายในวันนี้โดยเฉพาะอย่างยิ่งในระบบคอมพิวเตอร์เมนเฟรมขนาดใหญ่
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา อ้างอิง ASCII สมบูรณ์
ใน Windows: ANSI
ANSI (also called Windows-1252) เป็นตัวอักษรเริ่มต้นการตั้งค่าใน Windows ถึง Windows 95
ANSI เป็นส่วนขยายไป ASCII กับตัวละครต่างประเทศเพิ่ม มันใช้ไบต์เต็ม (8-bits) เพื่อเป็นตัวแทนของ 256 ตัวอักษรที่แตกต่างกัน
ตั้งแต่ ANSI ได้รับตัวอักษรเริ่มต้นการตั้งค่าใน Windows ก็คือการสนับสนุนจากเบราว์เซอร์
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา ANSI อ้างอิงที่สมบูรณ์
ใน HTML 4: ISO-8859-1
เนื่องจากประเทศส่วนใหญ่ใช้ตัวอักษร ASCII นอก, การเข้ารหัสตัวอักษรเริ่มต้นในมาตรฐาน HTML 2.0 ได้เปลี่ยนไปเป็น ISO-8859-1
ISO-8859-1 เป็นส่วนขยายไป ASCII กับตัวละครต่างประเทศเพิ่ม เช่น ANSI จะใช้ไบต์เต็มรูปแบบเพื่อเป็นตัวแทนของตัวละครสองเท่ากว่า ASCII
เมื่อตรวจสอบเบราว์เซอร์มาตรฐาน ISO-8859-1 ในหน้าเว็บปกติแล้วพวกเขาเริ่มต้นกับ ANSI เพราะ ANSI เป็นเหมือน ISO-8859-1 ยกเว้น ANSI ที่มี 32 ตัวอักษรพิเศษ
หากหน้าเว็บ HTML 4 ใช้ตัวตั้งที่แตกต่างจากมาตรฐาน ISO-8859-1 ก็ควรจะระบุไว้ใน <meta> แท็กที่ชอบ:
ตัวอย่าง
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
ตัวอักษรเริ่มต้นที่กำหนดไว้สำหรับ HTML5 เป็น UTF-8
ทั้งหมด HTML 4 โปรเซสเซอร์ที่สนับสนุน UTF-8 และทุก HTML5 และ XML โปรเซสเซอร์ที่สนับสนุนทั้ง UTF-8 และ UTF-16
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา สมบูรณ์อ้างอิงมาตรฐาน ISO-8859-1
ใน HTML5: Unicode UTF-8
เพราะชุดตัวอักษรดังกล่าวข้างต้นมีจำนวน จำกัด และเข้ากันไม่ได้ในสภาพแวดล้อมที่พูดได้หลายภาษาที่ Unicode Consortium พัฒนามาตรฐาน Unicode
ครอบคลุมมาตรฐาน Unicode (almost) ทุกตัวอักษร, เครื่องหมายวรรคตอนและสัญลักษณ์ในโลก
Unicode ช่วยให้การประมวลผล, การจัดเก็บและการขนส่งของข้อความที่เป็นอิสระจากแพลตฟอร์มและภาษา
การเข้ารหัสตัวอักษรเริ่มต้นใน HTML5 เป็น UTF-8
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา Unicode อ้างอิงที่สมบูรณ์