Para exibir uma página HTML corretamente, o navegador deve saber o conjunto de caracteres (character encoding) de usar.
Conjuntos de caracteres HTML
O que é a codificação de caracteres correta para usar em HTML?
Para HTML5, a codificação de caracteres padrão é UTF-8.
Isso nem sempre tem sido o caso. A codificação de caracteres para o início da web foi ASCII.
Mais tarde, a partir de HTML 2.0 para HTML 4.01, ISO-8859-1 foi considerada o padrão.
Com XML e HTML5, UTF-8 finalmente chegou, e resolveu uma série de problemas de codificação de caracteres.
Abaixo está uma breve descrição dos padrões de codificação de caracteres.
In the Beginning: ASCII
Informações sobre o computador (numbers, texts, and pictures) é armazenado como binário uns e zero (01000101) na eletrônica.
Para padronizar o armazenamento de caracteres alfanuméricos, a American Standard Code Information Interchange (ASCII) foi criado. É definido um número de 7 bits binários único para cada personagem armazenável para apoiar os números de 0-9, a maiúsculas / minúsculas Inglês alfabeto (az, AZ) , e alguns caracteres especiais como! $ + - ( ) @ <>.
Desde ASCII utilizado um byte (7 bits para o carácter, e um bit de paridade para o controlo de transmissão), só poderá representar 128 caracteres diferentes. Além disso 32 destes caracteres foram reservados para outros fins de controlo.
A maior fraqueza com ASCII foi que ele excluídos letras não inglesas.
ASCII ainda está em uso difundido hoje, especialmente em sistemas de computador de mainframe grandes.
Para um olhar mais atento, por favor estudar a nossa completa ASCII Referência .
No Windows: ANSI
ANSI (also called Windows-1252) foi o conjunto de caracteres padrão no Windows, até Windows 95.
ANSI é uma extensão para ASCII, com caracteres internacionais adicionais. Ele usa um byte completo (8-bits) para representar 256 caracteres diferentes.
Desde ANSI tem sido o conjunto de caracteres padrão no Windows, ele é suportado por todos os navegadores.
Para um olhar mais atento, por favor estudar a nossa completa ANSI Referência .
Em HTML 4: ISO-8859-1
Como a maioria dos países usam caracteres fora ASCII, a codificação de caracteres padrão no padrão HTML 2.0 foi alterada para ISO-8859-1.
ISO-8859-1 é uma extensão para ASCII, com caracteres internacionais adicionais. Como ANSI, ele usa um byte completo para representar o dobro de caracteres do que ASCII.
Quando os navegadores detectar ISO-8859-1 em uma página web, que normalmente padrão para ANSI, porque ANSI é idêntico ao ISO-8859-1, exceto que ANSI tem 32 caracteres extras.
Se uma página web HTML 4 usa um caractere-conjunto diferente de ISO-8859-1, deve ser especificado no <meta> tag como:
Exemplo
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
O conjunto de caracteres padrão para HTML5 é UTF-8.
Todos os HTML 4 processadores suportam UTF-8, e todos os processadores HTML5 e XML suportam tanto UTF-8 e UTF-16.
Para um olhar mais atento, por favor estudar a nossa referência ISO-8859-1 completa .
Em HTML5: Unicode UTF-8
Porque os conjuntos de caracteres listados acima são limitados, e não compatíveis em ambientes multilingues, o Consórcio Unicode desenvolveu o padrão Unicode.
As tampas Unicode padrão (almost) todos os personagens, pontuações e símbolos do mundo.
Unicode permite o processamento, armazenamento e transporte de texto, independente de plataforma e linguagem.
A codificação de caracteres padrão em HTML5 é UTF-8.
Para um olhar mais atento, por favor estudar a nossa completa Unicode Reference .