ในการแสดงหน้าเว็บ HTML ได้อย่างถูกต้อง, เบราว์เซอร์จะต้องรู้ว่าสิ่งที่ชุดอักขระ (การเข้ารหัสตัวอักษร) ที่จะใช้
HTML ชุดตัวอักษร
การเข้ารหัสอักขระที่ถูกต้องเพื่อใช้ใน HTML คืออะไร?
สำหรับ HTML5, การเข้ารหัสอักขระเริ่มต้นเป็น UTF-8
นี้ไม่ได้รับเสมอกรณี การเข้ารหัสตัวอักษรสำหรับเว็บต้นเป็น ASCII
ต่อมาจาก HTML 2.0 เพื่อ HTML 4.01, ISO-8859-1 ได้รับการพิจารณามาตรฐาน
กับ XML และ HTML5, UTF-8 มาถึงในที่สุดและแก้ไขปัญหามากการเข้ารหัสตัวอักษร
ด้านล่างเป็นคำอธิบายสั้น ๆ ของมาตรฐานการเข้ารหัสอักขระ
ในการเริ่มต้น: ASCII
ข้อมูลคอมพิวเตอร์ (ตัวเลขข้อความและรูปภาพ) จะถูกเก็บเป็นคนไบนารีและศูนย์ (01000101) ในอุปกรณ์อิเล็กทรอนิกส์
ที่จะสร้างมาตรฐานการจัดเก็บตัวเลขและตัวอักษรที่รหัสมาตรฐานอเมริกันสำหรับการแลกเปลี่ยนข้อมูล (ASCII) ถูกสร้างขึ้น มันกำหนดไบนารีจำนวน 7 บิตไม่ซ้ำกันสำหรับตัวละครแต่ละตัวสามารถจัดเก็บได้เพื่อสนับสนุนตัวเลข 0-9, บน / กรณีที่ต่ำกว่าอักษรภาษาอังกฤษ (az, AZ) และบางตัวอักษรพิเศษเช่น! $ + - () @ <>
ตั้งแต่ ASCII ใช้หนึ่งไบต์ (7 บิตสำหรับตัวละครและเป็นหนึ่งในบิตสำหรับการควบคุมการส่งความเท่าเทียมกัน) ก็จะเป็นตัวแทนของ 128 ตัวอักษรที่แตกต่างกัน นอกจากนี้ใน 32 ของตัวละครเหล่านี้ถูกสงวนไว้สำหรับวัตถุประสงค์ในการควบคุมอื่น ๆ
จุดอ่อนที่ใหญ่ที่สุดกับ ASCII คือการที่มันได้รับการยกเว้นตัวอักษรที่ไม่ใช่ภาษาอังกฤษ
ASCII ยังคงอยู่ในการใช้อย่างแพร่หลายในวันนี้โดยเฉพาะอย่างยิ่งในระบบคอมพิวเตอร์เมนเฟรมขนาดใหญ่
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา อ้างอิง ASCII สมบูรณ์
ใน Windows: ANSI
ANSI (เรียกอีกอย่างของ Windows 1252) เป็นตัวอักษรเริ่มต้นการตั้งค่าใน Windows ถึง Windows 95
ANSI เป็นส่วนขยายไป ASCII กับตัวละครต่างประเทศเพิ่ม มันใช้ไบต์เล่ม (8 บิต) เพื่อเป็นตัวแทนของ 256 ตัวอักษรที่แตกต่างกัน
ตั้งแต่ ANSI ได้รับตัวอักษรเริ่มต้นการตั้งค่าใน Windows ก็คือการสนับสนุนจากเบราว์เซอร์
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา ANSI อ้างอิงที่สมบูรณ์
ใน HTML 4: ISO-8859-1
เนื่องจากประเทศส่วนใหญ่ใช้ตัวอักษร ASCII นอก, การเข้ารหัสตัวอักษรเริ่มต้นในมาตรฐาน HTML 2.0 ได้เปลี่ยนไปเป็น ISO-8859-1
ISO-8859-1 เป็นส่วนขยายไป ASCII กับตัวละครต่างประเทศเพิ่ม เช่น ANSI จะใช้ไบต์เต็มรูปแบบเพื่อเป็นตัวแทนของตัวละครสองเท่ากว่า ASCII
![]() | เมื่อตรวจสอบเบราว์เซอร์มาตรฐาน ISO-8859-1 ในหน้าเว็บปกติแล้วพวกเขาเริ่มต้นกับ ANSI เพราะ ANSI เป็นเหมือน ISO-8859-1 ยกเว้น ANSI ที่มี 32 ตัวอักษรพิเศษ |
---|
หากหน้าเว็บ HTML 4 ใช้ตัวตั้งที่แตกต่างจากมาตรฐาน ISO-8859-1 ก็ควรจะระบุไว้ใน <meta> แท็ก:
![]() | ตัวอักษรเริ่มต้นที่กำหนดไว้สำหรับ HTML5 เป็น UTF-8 |
---|
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา สมบูรณ์อ้างอิงมาตรฐาน ISO-8859-1
ใน HTML5: Unicode UTF-8
เพราะชุดตัวอักษรดังกล่าวข้างต้นมีจำนวน จำกัด และไม่สามารถใช้งานในสภาพแวดล้อมที่พูดได้หลายภาษาที่ Unicode Consortium พัฒนามาตรฐาน Unicode
ครอบคลุมมาตรฐาน Unicode (เกือบ) ทุกตัวอักษร, เครื่องหมายวรรคตอนและสัญลักษณ์ในโลก
Unicode ช่วยให้การประมวลผล, การจัดเก็บและการขนส่งของข้อความเป็นอิสระจากแพลตฟอร์มและภาษา
การเข้ารหัสตัวอักษรเริ่มต้นใน HTML5 เป็น UTF-8
เพื่อให้ดูใกล้ชิดโปรดศึกษาของเรา Unicode อ้างอิงที่สมบูรณ์