Para exibir uma página HTML corretamente, um navegador web deve saber o conjunto de caracteres (character encoding) de usar.
O que é codificação de caracteres?
ASCII foi o primeiro padrão de codificação de caracteres (também chamado conjunto de caracteres). Ele define 127 diferentes caracteres alfanuméricos que poderiam ser usados na internet.
HTML (Hypertext Markup Language) tem sido usado desde 1991, mas HTML 4.0 (Dezembro de 1997) foi a primeira versão padronizada onde caracteres internacionais receberam tratamento razoavelmente completo. Quando um documento HTML inclui caracteres especiais fora do intervalo de sete-bit ASCII dois objetivos são vale a pena considerar: a integridade da informação, e exibição do navegador universal.
Números ASCII suportado (0-9) , letras Inglês (AZ) , e alguns caracteres especiais como ! $ + - ( ) @ < > ! $ + - ( ) @ < > .
ANSI (Windows-1252) foi o conjunto de caracteres original do Windows. Apoiou 256 códigos de caracteres diferentes.
ISO-8859-1 foi o conjunto de caracteres padrão para HTML 4. Ela também apoiou 256 códigos de caracteres diferentes.
Porque ANSI e ISO foram limitados, a codificação de caracteres padrão foi alterado para UTF-8 em HTML 5.
UTF-8 (Unicode) cobre quase todos os caracteres e símbolos do mundo.
Todos os HTML 4 processadores também suportam UTF-8.
O atributo charset HTML
Para exibir uma página HTML corretamente, um navegador web deve saber o conjunto de caracteres usado na página.
Isso é especificado na <meta> tag:
Para HTML4:
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-1">
Para HTML5:
<meta charset="UTF-8">
Se um navegador detecta ISO-8859-1 em uma página da web, o padrão é ANSI, porque ANSI é idêntico ao ISO-8859-1, exceto que ANSI tem 32 caracteres extras.
Diferenças entre conjuntos de caracteres
A tabela a seguir mostra as diferenças entre os conjuntos de caracteres descritas acima:
Numb | ASCII | ANSI | 8859 | UTF-8 | Descrição |
---|---|---|---|---|---|
32 | espaço | ||||
33 | ! | ! | ! | ! | ponto de exclamação |
34 | " | " | " | " | Aspa |
35 | # | # | # | # | sinal de número |
36 | $ | $ | $ | $ | cifrão |
37 | % | % | % | % | sinal de porcentagem |
38 | & | & | & | & | E comercial |
39 | ' | ' | ' | ' | apóstrofo |
40 | ( | ( | ( | ( | parêntese esquerdo |
41 | ) | ) | ) | ) | parêntese direito |
42 | * | * | * | * | asterisco |
43 | + | + | + | + | sinal de mais |
44 | , | , | , | , | vírgula |
45 | - | - | - | - | hífen-menos |
46 | . | . | . | . | ponto final |
47 | / | / | / | / | solidus |
48 | 0 | 0 | 0 | 0 | de zero dígitos |
49 | 1 | 1 | 1 | 1 | um dígito |
50 | 2 | 2 | 2 | 2 | dois dígitos |
51 | 3 | 3 | 3 | 3 | três dígitos |
52 | 4 | 4 | 4 | 4 | de quatro dígitos |
53 | 5 | 5 | 5 | 5 | cinco dígitos |
54 | 6 | 6 | 6 | 6 | dígitos seis |
55 | 7 | 7 | 7 | 7 | dígitos de sete |
56 | 8 | 8 | 8 | 8 | dígito oito |
57 | 9 | 9 | 9 | 9 | dígito nove |
58 | : | : | : | : | cólon |
59 | ; | ; | ; | ; | ponto e vírgula |
60 | < | < | < | < | sinal de menor |
61 | = | = | = | = | sinal de igual |
62 | > | > | > | > | sinal de maior |
63 | ? | ? | ? | ? | ponto de interrogação |
64 | @ | @ | @ | @ | comercial na |
65 | A | A | A | A | A maiúsculo |
66 | B | B | B | B | Latin letra maiúscula B |
67 | C | C | C | C | Latin letra maiúscula C |
68 | D | D | D | D | letra maiúscula Latina D |
69 | E | E | E | E | letra maiúscula Latina E |
70 | F | F | F | F | Latin letra maiúscula F |
71 | G | G | G | G | letra maiúscula Latina G |
72 | H | H | H | H | Latin letra maiúscula H |
73 | I | I | I | I | Latin letra maiúscula I |
74 | J | J | J | J | Latin letra maiúscula J |
75 | K | K | K | K | Latin letra maiúscula K |
76 | L | L | L | L | Latin letra maiúscula L |
77 | M | M | M | M | Latin letra maiúscula M |
78 | N | N | N | N | Latin letra maiúscula N |
79 | O | O | O | O | Latin letra maiúscula O |
80 | P | P | P | P | letra maiúscula Latina P |
81 | Q | Q | Q | Q | Latin letra maiúscula Q |
82 | R | R | R | R | Latin letra maiúscula R |
83 | S | S | S | S | Latin letra maiúscula S |
84 | T | T | T | T | letra maiúscula Latina T |
85 | U | U | U | U | Latin letra maiúscula L |
86 | V | V | V | V | Latin letra maiúscula V |
87 | W | W | W | W | Latin letra maiúscula W |
88 | X | X | X | X | Latin letra maiúscula X |
89 | Y | Y | Y | Y | Latin letra maiúscula Y |
90 | Z | Z | Z | Z | Latin letra maiúscula Z |
91 | [ | [ | [ | [ | colchete esquerdo |
92 | \ | \ | \ | \ | solidus inversa |
93 | ] | ] | ] | ] | colchete direito |
94 | ^ | ^ | ^ | ^ | acento circunflexo |
95 | _ | _ | _ | _ | linha baixa |
96 | ` | ` | ` | ` | acento grave |
97 | a | a | a | a | A minúsculo |
98 | b | b | b | b | Latin pequena letra b |
99 | c | c | c | c | Latin pequena letra c |
100 | d | d | d | d | Latin pequena letra d |
101 | e | e | e | e | Latin pequena letra e |
102 | f | f | f | f | Latin pequeno letra f |
103 | g | g | g | g | Latin pequena letra g |
104 | h | h | h | h | Latin pequena letra h |
105 | i | i | i | i | Latin pequena letra i |
106 | j | j | j | j | Latin pequena letra j |
107 | k | k | k | k | Latin pequena letra k |
108 | l | l | l | l | Latin pequena letra l |
109 | m | m | m | m | Latin pequena letra m |
110 | n | n | n | n | Latin pequena letra n |
111 | o | o | o | o | Latin pequena letra o |
112 | p | p | p | p | Latin pequena letra p |
113 | q | q | q | q | Latin pequena letra q |
114 | r | r | r | r | letra r pequena Latina |
115 | s | s | s | s | Latin pequena letra s |
116 | t | t | t | t | Latin pequena letra t |
117 | u | u | u | u | letra pequena Latina u |
118 | v | v | v | v | Latin pequena letra v |
119 | w | w | w | w | letra pequena Latina w |
120 | x | x | x | x | Latin pequena letra x |
121 | y | y | y | y | Latin pequena letra y |
122 | z | z | z | z | Latin pequena letra z |
123 | { | { | { | { | chaveta esquerda |
124 | | | | | | | | | Linha vertical |
125 | } | } | } | } | colchete direito |
126 | ~ | ~ | ~ | ~ | til |
127 | DEL | ||||
128 | € | símbolo do euro | |||
129 | NÃO USADO | ||||
130 | ‚ | single-9 baixo aspa | |||
131 | ƒ | letra pequena Latina f com gancho | |||
132 | „ | duplo-9 baixo aspa | |||
133 | … | reticências horizontal | |||
134 | † | punhal | |||
135 | ‡ | double punhal | |||
136 | ˆ | carta modificador acento circunflexo | |||
137 | ‰ | por sinal mille | |||
138 | Š | Latin letra maiúscula S com Caron | |||
139 | ‹ | aspa ângulo apontando para a esquerda | |||
140 | Œ | Latin ligadura de capital OE | |||
141 | NÃO USADO | ||||
142 | Z | Latin letra maiúscula Z com Caron | |||
143 | NÃO USADO | ||||
144 | NÃO USADO | ||||
145 | ‘ | aspas simples esquerda | |||
146 | ’ | plica direita | |||
147 | “ | dupla marca esquerda de cotação | |||
148 | ” | aspa dupla à direita | |||
149 | • | bala | |||
150 | – | traço | |||
151 | — | travessão | |||
152 | ˜ | pequena tilde | |||
153 | ™ | sinal de marca | |||
154 | š | Latin pequena letra s com Caron | |||
155 | › | marca única que aponta certo ângulo de cotação | |||
156 | œ | Latina oe ligadura pequena | |||
157 | NÃO USADO | ||||
158 | z | Latin pequena letra z com Caron | |||
159 | Ÿ | letra maiúscula Latina Y com trema | |||
160 | não-break espaço | ||||
161 | exclamação invertido | ||||
162 | ¢ | ¢ | ¢ | sinal cento | |
163 | £ | £ | £ | sinal de libra | |
164 | sinal de moeda | ||||
165 | ¥ | ¥ | ¥ | sinal de ienes | |
166 | ¦ | ¦ | ¦ | barra quebrada | |
167 | § | § | § | sinal secção | |
168 | ¨ | ¨ | ¨ | trema | |
169 | © | © | © | sinal dos direitos reservados | |
170 | ª | ª | ª | indicador ordinal feminino | |
171 | « | « | « | deixou-apontando aspas duplas ângulo | |
172 | não assine | ||||
173 | | | | hífen | |
174 | ® | ® | ® | sinal registado | |
175 | ¯ | ¯ | ¯ | sinal de vogal longa | |
176 | ° | ° | ° | sinal grau | |
177 | ± | ± | ± | sinal de mais ou menos | |
178 | ² | ² | ² | sobrescrito dois | |
179 | ³ | ³ | ³ | sobrescrito três | |
180 | acento agudo | ||||
181 | µ | µ | µ | micro sinal | |
182 | sinal Pilcrow | ||||
183 | · | · | · | dot meio | |
184 | . | . | . | cedilha | |
185 | ª | ª | ª | um sobrescrito | |
186 | indicador ordinal masculino | ||||
187 | » | » | » | -Apontando direita aspas duplas ângulo | |
188 | 1/4 | 1/4 | 1/4 | fração vulgar quarto | |
189 | 1/2 | 1/2 | 1/2 | fracção vulgar uma metade | |
190 | 3/4 | 3/4 | 3/4 | fracção vulgar três quartos | |
191 | ponto de interrogação invertido | ||||
192 | À | À | À | A maiúsculo com grave | |
193 | Á | Á | Á | A maiúsculo com aguda | |
194 | Â | Â | Â | A maiúsculo com acento circunflexo | |
195 | Ã | Ã | Ã | A maiúsculo com til | |
196 | Ä | Ä | Ä | letra maiúscula com trema | |
197 | Å | Å | Å | A maiúsculo com anel acima | |
198 | Æ | Æ | Æ | Latin letra maiúscula AE | |
199 | C | C | C | Latin letra maiúscula C com cedilha | |
200 | E | E | E | E maiúsculo com grave | |
201 | E | E | E | E maiúsculo com aguda | |
202 | E | E | E | E maiúsculo com acento circunflexo | |
203 | E | E | E | E maiúsculo com trema | |
204 | I | I | I | I maiúsculo com grave | |
205 | I | I | I | I maiúsculo com aguda | |
206 | I | I | I | I maiúsculo com acento circunflexo | |
207 | I | I | I | I maiúsculo com trema | |
208 | Ð | Ð | Ð | Latin letra maiúscula Eth | |
209 | Ñ | Ñ | Ñ | Latin letra maiúscula N com til | |
210 | O | O | O | O maiúsculo com grave | |
211 | O | O | O | O maiúsculo com aguda | |
212 | O | O | O | O maiúsculo com acento circunflexo | |
213 | O | O | O | O maiúsculo com til | |
214 | O | O | O | O maiúsculo com trema | |
215 | × | × | × | sinal de multiplicação | |
216 | Ø | Ø | Ø | O maiúsculo com acidente vascular cerebral | |
217 | U | U | U | letra maiúscula Latina U com grave | |
218 | U | U | U | letra maiúscula Latina U com agudo | |
219 | U | U | U | letra maiúscula Latina U com acento circunflexo | |
220 | U | U | U | letra maiúscula Latina U com trema | |
221 | Y | Y | Y | letra maiúscula Latina Y com aguda | |
222 | Þ | Þ | Þ | letra maiúscula Thorn Latina | |
223 | ß | ß | ß | letra pequena Latina afiada s | |
224 | a | a | a | letra a Latin pequena com grave | |
225 | a | a | a | letra a Latin pequeno, com aguda | |
226 | a | a | a | letra a Latin pequena com acento circunflexo | |
227 | a | a | a | letra a Latin pequena com til | |
228 | a | a | a | letra a Latin pequena com trema | |
229 | a | a | a | letra a Latin pequena com anel acima | |
230 | a | a | a | carta ae pequena Latina | |
231 | c | c | c | letra pequena Latina c com cedilha | |
232 | e | e | e | Latin pequena letra e com grave | |
233 | e | e | e | Latin pequena letra e com aguda | |
234 | e | e | e | Latin pequena letra e com acento circunflexo | |
235 | e | e | e | Latin pequena letra e com trema | |
236 | i | i | i | letra pequena Latina i com grave | |
237 | i | i | i | letra pequena Latina i com aguda | |
238 | i | i | i | letra pequena Latina i com acento circunflexo | |
239 | i | i | i | letra pequena Latina i com trema | |
240 | carta eth pequena Latina | ||||
241 | n | n | n | carta n Latina pequena com til | |
242 | o | o | o | o minúsculo com grave | |
243 | o | o | o | o minúsculo com aguda | |
244 | o | o | o | o minúsculo com acento circunflexo | |
245 | o | o | o | o minúsculo com til | |
246 | o | o | o | o minúsculo com trema | |
247 | ÷ | ÷ | ÷ | sinal de divisão | |
248 | o minúsculo com acidente vascular cerebral | ||||
249 | u | u | u | letra pequena Latina u com grave | |
250 | u | u | u | letra pequena Latina u com aguda | |
251 | u | u | u | letra pequena Latina com acento circunflexo | |
252 | u | u | u | letra pequena Latina u com trema | |
253 | y | y | y | Latin pequena letra y com aguda | |
254 | þ | þ | þ | carta espinho pequena Latina | |
255 | y | y | y | Latin pequena letra y com trema |
O conjunto de caracteres ASCII
ASCII usa os valores de 0 a 31 (and 127) para caracteres de controle.
ASCII usa os valores de 32 a 126 para letras, números e símbolos.
ASCII não usa os valores 128-255.
O conjunto de caracteres ANSI (Windows-1252)
ANSI é idêntico ao ASCII para os valores de 0 a 127.
ANSI tem um conjunto de caracteres exclusiva para os valores de 128 a 159.
ANSI é idêntico ao UTF-8 para os valores de 160 a 255.
O conjunto de caracteres ISO-8859-1
8859-1 é idêntico ao ASCII para os valores de 0 a 127.
O 8859-1 não usar os valores 128-159.
8859-1 é idêntico ao UTF-8 para os valores de 160 a 255.
O Conjunto de UTF-8 caracteres
UTF-8 é idêntica para ASCII para os valores de 0 a 127.
O UTF-8 não usar os valores 128-159.
UTF-8 é idêntico ao ANSI e 8859-1 para os valores de 160 a 255.
UTF-8 continua a partir do valor de 256 com mais de 10 000 caracteres diferentes.
Para um olhar mais atento, estudar a nossa completa de caracteres HTML Definir referência .