O Consórcio Unicode
O Consórcio Unicode desenvolve o padrão Unicode. Seu objetivo é substituir os conjuntos de caracteres existentes com o seu formato Unicode Transformation padrão (UTF) .
O Padrão Unicode tornou-se um sucesso e é implementado em HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. O padrão Unicode também é suportado em muitos sistemas operacionais e todos os navegadores modernos.
O Consórcio Unicode coopera com as organizações de desenvolvimento de padrões de liderança, como ISO, W3C e ECMA.
Os conjuntos de caracteres Unicode
Unicode pode ser implementado por diferentes conjuntos de caracteres. As codificações mais utilizados são UTF-8 e UTF-16:
Conjunto de caracteres | Descrição |
---|---|
UTF-8 | Um personagem em UTF8 pode ser de 1 a 4 bytes de comprimento. UTF-8 pode representar qualquer caractere no padrão Unicode. UTF-8 é compatível com ASCII. UTF-8 é a codificação preferida para e-mail e páginas da web |
UTF-16 | 16 bits formato de transformação Unicode é uma codificação de caracteres de comprimento variável para Unicode, capaz de codificar para o repertório inteiro de Unicode. UTF-16 é usado nos principais sistemas operacionais e ambientes, como Microsoft Windows, Java e .NET. |
Tip: Os primeiros 128 caracteres de Unicode (which correspond one-to-one with ASCII) são codificados usando um único octeto com o mesmo valor binário como ASCII, tornando texto ASCII válido válido UTF-8-codificado Unicode bem.
HTML 4 suporta UTF-8. HTML 5 suporta UTF-8 e UTF-16!
O HTML5 padrão: Unicode UTF-8
Porque os conjuntos de caracteres em ISO-8859 foi limitado em tamanho, e não compatíveis em ambientes multilingues, o Consórcio Unicode desenvolveu o padrão Unicode.
As tampas Unicode padrão (almost) todos os personagens, pontuações e símbolos do mundo.
Unicode permite o processamento, armazenamento e transporte de texto independente de plataforma e linguagem.
A codificação de caracteres padrão no HTML-5 é UTF-8.
Se uma página web HTML5 usa um conjunto de caracteres diferente de UTF-8, que deve ser especificado no <meta> tag como:
Exemplo
<meta charset="ISO-8859-1">
A diferença entre Unicode e UTF-8
Unicode é um conjunto de caracteres. UTF-8 é a codificação.
Unicode é uma lista de caracteres com números decimais únicas (code points) . A = 41, B = 42, C = 43, ....
Esta lista de números decimais representam a string "hello" : 104 101 108 108 111
A codificação é como esses números são traduzidos em números binários sejam armazenados em um computador:
UTF-8 irá armazenar "Olá" como esta (binary) : 01101000 01100101 01101100 01101100 01101111
Encoding traduz números em binário. Conjuntos de caracteres converte caracteres para números.
UTF-8 Códigos de caracteres HTML5
Abaixo está uma lista de alguns dos UTF-8 códigos de caracteres suportados pelo HTML5:
códigos de caracteres | Decimal | hexadecimal |
---|---|---|
Controles C0 e Latim básico | 0-127 | 0000-007F |
Controlos C1 e Latina-1 Suplemento | 128-255 | 0080-00FF |
Latim estendido-A | 256-383 | 0100-017F |
Latim estendido-B | 384-591 | 0180-024F |
Os modificadores de espaçamento | 688-767 | 02B0-02FF |
Os sinais diacríticos | 768-879 | 0300-036F |
Grega e copta | 880-1023 | 0370-03FF |
cirílico Básico | 1024-1279 | 0400-04FF |
Suplemento cirílico | 1280-1327 | 0500-052F |
Pontuação geral | 8192-8303 | 2000-206F |
Símbolos de moeda | 8352-8399 | 20A0-20CF |
Símbolos | 8448-8527 | 2100-214F |
Setas; flechas | 8592-8703 | 2190-21FF |
Operadores matemáticos | 8704-8959 | 2200-22FF |
caixa de Desenhos | 9472-9599 | 2500-257F |
Elementos bloco | 9600-9631 | 2580-259F |
Formas geométricas | 9632-9727 | 25A0-25FF |
Miscellaneous Symbols | 9728-9983 | 2600-26FF |
Símbolos | 9984-10175 | 2700-27BF |