ในการแสดงหน้าเว็บ HTML ได้อย่างถูกต้อง, เว็บเบราเซอร์จะต้องรู้ว่าชุดอักขระ (character encoding) ที่จะใช้
การเข้ารหัสอักขระคืออะไร?
ASCII เป็นมาตรฐานการเข้ารหัสตัวอักษรตัวแรก (ที่เรียกว่าชุดตัวอักษร) มันกำหนด 127 ตัวอักษรและตัวเลขที่แตกต่างกันที่สามารถใช้บนอินเทอร์เน็ต
HTML (Hypertext Markup Language) ที่ได้รับในการใช้งานมาตั้งแต่ปี 1991 แต่ HTML 4.0 (ธันวาคม 1997) เป็นครั้งแรกที่รุ่นมาตรฐานที่ตัวละครต่างประเทศที่ได้รับการรักษาที่สมบูรณ์พอสมควร เมื่อเอกสาร HTML ประกอบด้วยอักขระพิเศษนอกช่วงของ ASCII เจ็ดบิตสองเป้าหมายมีมูลค่าการพิจารณา: ความสมบูรณ์ของข้อมูลและการแสดงผลเบราว์เซอร์ที่เป็นสากล
หมายเลข ASCII สนับสนุน (0-9) , ตัวอักษรภาษาอังกฤษ (AZ) และบางตัวอักษรพิเศษเช่น ! $ + - ( ) @ < > ! $ + - ( ) @ < >
ANSI (Windows-1252) เป็นต้นฉบับของ Windows ชุดอักขระ มันได้รับการสนับสนุน 256 รหัสอักขระที่แตกต่างกัน
ISO-8859-1 ถูกตัวอักษรเริ่มต้นที่กำหนดไว้สำหรับ HTML 4. นอกจากนี้ยังได้รับการสนับสนุน 256 รหัสอักขระที่แตกต่างกัน
เพราะ ANSI และ ISO ถูก จำกัด การเข้ารหัสตัวอักษรเริ่มต้นได้เปลี่ยนไปเป็น UTF-8 ใน HTML5
UTF-8 (Unicode) ครอบคลุมเกือบทุกตัวอักษรและสัญลักษณ์ในโลก
ทั้งหมด HTML 4 โปรเซสเซอร์ยังสนับสนุน UTF-8
ใช้ HTML แอตทริบิวต์ charset
ในการแสดงหน้าเว็บ HTML ได้อย่างถูกต้อง, เว็บเบราเซอร์จะต้องรู้ว่าชุดตัวอักษรที่ใช้ในหน้า
นี้จะระบุไว้ใน <meta> แท็ก:
สำหรับ HTML4:
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
สำหรับ HTML5:
<meta charset="UTF-8">
หากเบราว์เซอร์ตรวจจับ ISO-8859-1 ในหน้าเว็บที่เป็นค่าเริ่มต้น ANSI เพราะ ANSI เป็นเหมือน ISO-8859-1 ยกเว้น ANSI ที่มี 32 ตัวอักษรพิเศษ
ความแตกต่างระหว่างชุดตัวอักษร
ตารางต่อไปนี้แสดงความแตกต่างระหว่างชุดตัวอักษรที่อธิบายไว้ข้างต้น
Numb | ASCII | ANSI | 8859 | UTF-8 | ลักษณะ |
---|---|---|---|---|---|
32 | ช่องว่าง | ||||
33 | ! | ! | ! | ! | อัศเจรีย์ |
34 | " | " | " | " | เครื่องหมายคำพูด |
35 | # | # | # | # | เครื่องหมาย |
36 | $ | $ | $ | $ | เครื่องหมายดอลลาร์ |
37 | % | % | % | % | เครื่องหมายเปอร์เซ็นต์ |
38 | & | & | & | & | เครื่องหมาย |
39 | ' | ' | ' | ' | จุดลูกน้ำ |
40 | ( | ( | ( | ( | วงเล็บ |
41 | ) | ) | ) | ) | วงเล็บ |
42 | * | * | * | * | ดอกจัน |
43 | + | + | + | + | กากบาท |
44 | , | , | , | , | จุลภาค |
45 | - | - | - | - | ยัติภังค์ลบ |
46 | . | . | . | . | มหัพภาค |
47 | / | / | / | / | โซลิดัส |
48 | 0 | 0 | 0 | 0 | ศูนย์หลัก |
49 | 1 | 1 | 1 | 1 | หลักหนึ่ง |
50 | 2 | 2 | 2 | 2 | เลขสองหลัก |
51 | 3 | 3 | 3 | 3 | หลักสาม |
52 | 4 | 4 | 4 | 4 | หลักสี่ |
53 | 5 | 5 | 5 | 5 | หลักห้า |
54 | 6 | 6 | 6 | 6 | หลักหก |
55 | 7 | 7 | 7 | 7 | เจ็ดหลัก |
56 | 8 | 8 | 8 | 8 | หลักแปด |
57 | 9 | 9 | 9 | 9 | หลักเก้า |
58 | : | : | : | : | ปลายลำไส้ใหญ่ |
59 | ; | ; | ; | ; | อัฒภาค |
60 | < | < | < | < | น้อยกว่าการเข้าสู่ระบบ |
61 | = | = | = | = | เท่ากับ |
62 | > | > | > | > | มากขึ้นกว่าการเข้าสู่ระบบ |
63 | ? | ? | ? | ? | เครื่องหมายคำถาม |
64 | @ | @ | @ | @ | พาณิชย์ |
65 | A | A | A | A | ละตินอักษรตัวใหญ่ |
66 | B | B | B | B | ละตินตัวอักษร B |
67 | C | C | C | C | ตัวอักษรละติน C |
68 | D | D | D | D | ตัวอักษรละติน D |
69 | E | E | E | E | ตัวอักษรละติน E |
70 | F | F | F | F | ตัวอักษรละติน F |
71 | G | G | G | G | ตัวอักษรละติน G |
72 | H | H | H | H | ตัวอักษรละติน H |
73 | I | I | I | I | ละตินอักษรตัวใหญ่ผม |
74 | J | J | J | J | ตัวอักษรละติน J |
75 | K | K | K | K | ตัวอักษรละติน K |
76 | L | L | L | L | ตัวอักษรละติน L |
77 | M | M | M | M | ตัวอักษรละติน M |
78 | N | N | N | N | ตัวอักษรละติน N |
79 | O | O | O | O | ละตินตัวอักษร O |
80 | P | P | P | P | ตัวอักษรละติน P |
81 | Q | Q | Q | Q | ละตินตัวอักษร Q |
82 | R | R | R | R | ละตินตัวอักษร R |
83 | S | S | S | S | ตัวอักษรละติน S |
84 | T | T | T | T | ตัวอักษรละติน T |
85 | U | U | U | U | ตัวอักษรละติน U |
86 | V | V | V | V | ละตินตัวอักษร V |
87 | W | W | W | W | ตัวอักษรละติน W |
88 | X | X | X | X | ตัวอักษรละติน X |
89 | Y | Y | Y | Y | ตัวอักษรละติน Y |
90 | Z | Z | Z | Z | ละตินตัวอักษร Z |
91 | [ | [ | [ | [ | วงเล็บตาราง |
92 | \ | \ | \ | \ | โซลิดัสย้อนกลับ |
93 | ] | ] | ] | ] | วงเล็บเหลี่ยมขวา |
94 | ^ | ^ | ^ | ^ | สำเนียงหมวก |
95 | _ | _ | _ | _ | บรรทัดต่ำ |
96 | ` | ` | ` | ` | สำเนียงหลุมฝังศพ |
97 | a | a | a | a | ละตินตัวอักษรขนาดเล็ก |
98 | b | b | b | b | ละตินเล็กตัวอักษร B |
99 | c | c | c | c | ละตินเล็กตัวอักษร C |
100 | d | d | d | d | ละตินเล็กตัวอักษร D |
101 | e | e | e | e | ละตินตัวอักษร E ขนาดเล็ก |
102 | f | f | f | f | ละตินเล็กตัวอักษรฉ |
103 | g | g | g | g | ละตินจดหมายกรัมขนาดเล็ก |
104 | h | h | h | h | ละตินตัวอักษร H ขนาดเล็ก |
105 | i | i | i | i | ละตินฉันอักษรตัวเล็ก |
106 | j | j | j | j | ลาตินเจอักษรตัวเล็ก |
107 | k | k | k | k | ละตินตัวอักษร k ขนาดเล็ก |
108 | l | l | l | l | ละตินตัวอักษร L ขนาดเล็ก |
109 | m | m | m | m | ละตินเล็กตัวอักษรเมตร |
110 | n | n | n | n | ละตินตัวอักษร n ขนาดเล็ก |
111 | o | o | o | o | ละตินตัวอักษร O ขนาดเล็ก |
112 | p | p | p | p | ละตินตัวอักษร P ขนาดเล็ก |
113 | q | q | q | q | ละติน Q อักษรตัวเล็ก |
114 | r | r | r | r | ละติน R อักษรตัวเล็ก |
115 | s | s | s | s | ละตินตัวอักษร S ขนาดเล็ก |
116 | t | t | t | t | ละตินตัวอักษร T ขนาดเล็ก |
117 | u | u | u | u | อักษรตัวเล็กละตินยู |
118 | v | v | v | v | ละตินเล็กตัวอักษร V |
119 | w | w | w | w | อักษรตัวเล็กละติน W |
120 | x | x | x | x | ละตินตัวอักษร X ขนาดเล็ก |
121 | y | y | y | y | ละตินตัวอักษร y ขนาดเล็ก |
122 | z | z | z | z | ละตินเล็กตัว Z |
123 | { | { | { | { | ปีกกาซ้าย |
124 | | | | | | | | | เส้นแนวตั้ง |
125 | } | } | } | } | ปีกกาขวา |
126 | ~ | ~ | ~ | ~ | ตัวหนอน |
127 | DEL | ||||
128 | € | เครื่องหมายยูโร | |||
129 | ไม่ได้ใช้ | ||||
130 | ‚ | -9 ต่ำเครื่องหมายคำพูดเดียว | |||
131 | ƒ | อักษรตัวเล็กละตินฉกับตะขอ | |||
132 | „ | -9 ต่ำเครื่องหมายอัญประกาศ | |||
133 | … | จุดไข่ปลาแนวนอน | |||
134 | † | กริช | |||
135 | ‡ | กริชคู่ | |||
136 | ˆ | จดหมายปรับปรุงสำเนียงหมวก | |||
137 | ‰ | ต่อสัญญาณพัน | |||
138 | Š | ละตินตัวอักษร S กับรอน | |||
139 | ‹ | เครื่องหมายคำพูดมุมซ้ายชี้เดียว | |||
140 | Œ | ทุนละตินมัด OE | |||
141 | ไม่ได้ใช้ | ||||
142 | Z | ละตินตัวอักษร Z ทุนกับรอน | |||
143 | ไม่ได้ใช้ | ||||
144 | ไม่ได้ใช้ | ||||
145 | ‘ | ซ้ายเครื่องหมายคำพูดเดียว | |||
146 | ’ | เครื่องหมายคำพูดเดียวที่เหมาะสม | |||
147 | “ | ซ้ายเครื่องหมายอัญประกาศ | |||
148 | ” | เครื่องหมายคำพูดขวาสองครั้ง | |||
149 | • | กระสุน | |||
150 | – | en ประ | |||
151 | — | em ประ | |||
152 | ˜ | ตัวหนอนขนาดเล็ก | |||
153 | ™ | ป้ายเครื่องหมายทางการค้า | |||
154 | š | อักษรตัวเล็กละติน S กับรอน | |||
155 | › | ขวาชี้เครื่องหมายคำพูดเดียวมุม | |||
156 | œ | ละติน OE มัดเล็ก | |||
157 | ไม่ได้ใช้ | ||||
158 | z | ละตินตัวอักษร Z ขนาดเล็กที่มีรอน | |||
159 | Ÿ | ตัวอักษรละติน Y กับ diaeresis | |||
160 | ไม่มีการแบ่งพื้นที่ | ||||
161 | เครื่องหมายอัศเจรีย์คว่ำ | ||||
162 | ¢ | ¢ | ¢ | เข้าสู่ระบบร้อย | |
163 | £ | £ | £ | เครื่องหมายปอนด์ | |
164 | เข้าสู่ระบบสกุลเงิน | ||||
165 | ¥ | ¥ | ¥ | สัญญาณเยน | |
166 | ¦ | ¦ | ¦ | บาร์หัก | |
167 | § | § | § | เข้าสู่ระบบส่วน | |
168 | ¨ | ¨ | ¨ | diaeresis | |
169 | © | © | © | เครื่องหมายลิขสิทธิ์ | |
170 | ª | ª | ª | ตัวบ่งชี้ลำดับผู้หญิง | |
171 | « | « | « | ซ้ายชี้เครื่องหมายคำพูดมุมคู่ | |
172 | ได้ลงนามใน | ||||
173 | | | | ยัติภังค์นุ่ม | |
174 | ® | ® | ® | ลงทะเบียนเข้าสู่ระบบ | |
175 | ¯ | ¯ | ¯ | ขีดขวางบนสระเพื่อบอกว่าเป็นสระเสียงยาว | |
176 | ° | ° | ° | เข้าสู่ระบบการศึกษาระดับปริญญา | |
177 | ± | ± | ± | บวกลบเครื่องหมาย | |
178 | ² | ² | ² | ยกสอง | |
179 | ³ | ³ | ³ | ยกสาม | |
180 | สำเนียงเฉียบพลัน | ||||
181 | µ | µ | µ | เข้าสู่ระบบไมโคร | |
182 | สัญญาณ Pilcrow | ||||
183 | · | · | · | จุดตรงกลาง | |
184 | . | . | . | cedilla | |
185 | ª | ª | ª | ยกหนึ่ง | |
186 | ตัวบ่งชี้ลำดับผู้ชาย | ||||
187 | » | » | » | ชี้ขวามุมคู่เครื่องหมายคำพูด | |
188 | 1/4 | 1/4 | 1/4 | ส่วนหยาบคายหนึ่งในสี่ | |
189 | 1/2 | 1/2 | 1/2 | ส่วนหยาบคายครึ่งหนึ่ง | |
190 | 3/4 | 3/4 | 3/4 | ส่วนหยาบคายสามในสี่ | |
191 | เครื่องหมายคำถามคว่ำ | ||||
192 | À | À | À | ละตินตัวอักษร A กับหลุมฝังศพ | |
193 | Á | Á | Á | ละตินตัวอักษร A กับเฉียบพลัน | |
194 | Â | Â | Â | ละตินตัวอักษร A กับหมวก | |
195 | Ã | Ã | Ã | ละตินอักษรตัวใหญ่กับตัวหนอน | |
196 | Ä | Ä | Ä | ละตินตัวอักษร A กับ diaeresis | |
197 | Å | Å | Å | ละตินตัวอักษร A กับแหวนดังกล่าวข้างต้น | |
198 | Æ | Æ | Æ | ตัวอักษรละติน AE | |
199 | C | C | C | ละตินตัวอักษร C ที่มี cedilla | |
200 | E | E | E | ละตินตัวอักษร E กับหลุมฝังศพ | |
201 | E | E | E | ละตินตัวอักษร E กับเฉียบพลัน | |
202 | E | E | E | ละตินตัวอักษร E กับหมวก | |
203 | E | E | E | ละตินตัวอักษร E กับ diaeresis | |
204 | I | I | I | ตัวอักษรละตินฉันกับหลุมฝังศพ | |
205 | I | I | I | ตัวอักษรละตินฉันกับเฉียบพลัน | |
206 | I | I | I | ตัวอักษรละตินฉันกับหมวก | |
207 | I | I | I | ตัวอักษรละตินฉันกับ diaeresis | |
208 | Ð | Ð | Ð | ตัวอักษรละตินผลประโยชน์ทับซ้อน | |
209 | Ñ | Ñ | Ñ | ละติน N อักษรตัวใหญ่กับตัวหนอน | |
210 | O | O | O | ละตินตัวอักษร O กับหลุมฝังศพ | |
211 | O | O | O | ละตินตัวอักษร O กับเฉียบพลัน | |
212 | O | O | O | ละตินตัวอักษร O กับหมวก | |
213 | O | O | O | ละตินตัวอักษร O กับตัวหนอน | |
214 | O | O | O | ละตินตัวอักษร O กับ diaeresis | |
215 | × | × | × | ตีนกา | |
216 | Ø | Ø | Ø | ละตินตัวอักษร O โรคหลอดเลือดสมอง | |
217 | U | U | U | ตัวอักษรละติน U กับหลุมฝังศพ | |
218 | U | U | U | ตัวอักษรละติน U กับเฉียบพลัน | |
219 | U | U | U | ตัวอักษรละติน U กับหมวก | |
220 | U | U | U | ตัวอักษรละติน U กับ diaeresis | |
221 | Y | Y | Y | ตัวอักษรละติน Y กับเฉียบพลัน | |
222 | Þ | Þ | Þ | ลาติน ธ อร์นตัวอักษร | |
223 | ß | ß | ß | อักษรตัวเล็กละตินคม s | |
224 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มีหลุมฝังศพ | |
225 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มีเฉียบพลัน | |
226 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มีหมวก | |
227 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มีตัวหนอน | |
228 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มี diaeresis | |
229 | a | a | a | ละตินตัวอักษรขนาดเล็กที่มีแหวนดังกล่าวข้างต้น | |
230 | a | a | a | ละติน AE อักษรตัวเล็ก | |
231 | c | c | c | อักษรตัวเล็กละตินคกับ cedilla | |
232 | e | e | e | ละตินตัว e ขนาดเล็กที่มีหลุมฝังศพ | |
233 | e | e | e | ละตินตัว e ขนาดเล็กที่มีเฉียบพลัน | |
234 | e | e | e | ละตินตัว e ขนาดเล็กที่มีหมวก | |
235 | e | e | e | ละตินตัว e ขนาดเล็กที่มี diaeresis | |
236 | i | i | i | อักษรตัวเล็กละตินฉันกับหลุมฝังศพ | |
237 | i | i | i | อักษรตัวเล็กละตินฉันกับเฉียบพลัน | |
238 | i | i | i | อักษรตัวเล็กละตินฉันกับหมวก | |
239 | i | i | i | อักษรตัวเล็กละตินฉันกับ diaeresis | |
240 | ผลประโยชน์ทับซ้อนละตินอักษรตัวเล็ก | ||||
241 | n | n | n | ละติน n ตัวอักษรขนาดเล็กที่มีตัวหนอน | |
242 | o | o | o | อักษรตัวเล็กละติน o กับหลุมฝังศพ | |
243 | o | o | o | อักษรตัวเล็กละติน o กับเฉียบพลัน | |
244 | o | o | o | อักษรตัวเล็กละติน o กับหมวก | |
245 | o | o | o | อักษรตัวเล็กละติน o กับตัวหนอน | |
246 | o | o | o | อักษรตัวเล็กละติน o กับ diaeresis | |
247 | ÷ | ÷ | ÷ | เข้าสู่ระบบส่วน | |
248 | อักษรตัวเล็กละติน o โรคหลอดเลือดสมอง | ||||
249 | u | u | u | อักษรตัวเล็กละติน U กับหลุมฝังศพ | |
250 | u | u | u | อักษรตัวเล็กละติน U กับเฉียบพลัน | |
251 | u | u | u | อักษรตัวเล็กละตินกับหมวก | |
252 | u | u | u | อักษรตัวเล็กละติน U กับ diaeresis | |
253 | y | y | y | ละตินตัวอักษร y ขนาดเล็กที่มีเฉียบพลัน | |
254 | þ | þ | þ | ละตินหนามอักษรตัวเล็ก | |
255 | y | y | y | ละตินตัวอักษร y ขนาดเล็กที่มี diaeresis |
ชุดอักขระ ASCII
ASCII ใช้ค่าจาก 0 ถึง 31 (and 127) สำหรับตัวควบคุม
ASCII ใช้ค่า 32-126 สำหรับตัวอักษรตัวเลขและสัญลักษณ์
ASCII ไม่ได้ใช้ค่าที่ 128-255
มาตรฐาน ANSI ชุดอักขระ (Windows-1252)
ANSI เป็นเหมือน ASCII สำหรับค่าที่ 0-127
ANSI มีชุดที่เป็นกรรมสิทธิ์ของตัวละครสำหรับค่าที่ 128-159
ANSI เป็นเหมือน UTF-8 สำหรับค่าที่ 160-255
ชุดอักขระ ISO-8859-1
8859-1 เป็นเหมือน ASCII สำหรับค่าที่ 0-127
8859-1 ไม่ได้ใช้ค่าที่ 128-159
8859-1 เป็นเหมือน UTF-8 สำหรับค่าที่ 160-255
ชุด UTF-8 ตัวอักษร
UTF-8 เป็นเหมือน ASCII สำหรับค่าที่ 0-127
UTF-8 ไม่ได้ใช้ค่าที่ 128-159
UTF-8 เป็นเหมือนทั้ง ANSI และ 8859-1 สำหรับค่าที่ 160-255
UTF-8 ต่อจากมูลค่า 256 ที่มีมากกว่า 10 000 ตัวอักษรที่แตกต่างกัน
เพื่อให้ดูใกล้ชิดและการศึกษาของเรา ตัวอักษร HTML สมบูรณ์ชุดอ้างอิง