El Consorcio Unicode
El Consorcio Unicode desarrolla el estándar Unicode. Su objetivo es reemplazar los conjuntos de caracteres existentes con su formato de transformación Unicode estándar (UTF) .
El estándar Unicode se ha convertido en un éxito y está implementado en HTML, XML, Java, JavaScript, E-mail, ASP, PHP, etc. El estándar Unicode también es compatible con muchos sistemas operativos y todos los navegadores modernos.
El Consorcio Unicode coopera con las organizaciones de desarrollo de estándares principales, como la ISO, el W3C, y ECMA.
Los juegos de caracteres Unicode
Unicode puede ser implementado por diferentes juegos de caracteres. Las codificaciones más comúnmente utilizados son UTF-8 y UTF-16:
Conjunto de caracteres | Descripción |
---|---|
UTF-8 | Un personaje en UTF8 puede ser de 1 a 4 bytes de longitud. UTF-8 puede representar cualquier carácter en el estándar Unicode. UTF-8 es compatible con ASCII. UTF-8 es la codificación preferido para el correo electrónico y páginas Web |
UTF-16 | 16-bit formato de transformación Unicode es una codificación de caracteres de longitud variable para Unicode, capaz de codificar todo el repertorio Unicode. UTF-16 se utiliza en sistemas y entornos operativos, como Microsoft Windows, Java y .NET. |
Tip: Los primeros 128 caracteres de Unicode (which correspond one-to-one with ASCII) se codifican utilizando un solo octeto con el mismo valor binario como ASCII, lo que hace de texto ASCII válidos válido UTF-8-codificado Unicode también.
HTML 4 soporta UTF-8. HTML 5 es compatible con UTF-8 y UTF-16!
El HTML5 estándar: Unicode UTF-8
Debido a que los juegos de caracteres en la norma ISO-8859 fue limitado en tamaño, y no es compatible en entornos multilingües, el Consorcio Unicode desarrolló el estándar Unicode.
Las cubiertas estándar Unicode (almost) todos los caracteres, signos de puntuación y símbolos que existen.
Unicode permite el procesamiento, el almacenamiento y el transporte de texto independiente de la plataforma y lenguaje.
La codificación de caracteres por defecto en HTML-5 es UTF-8.
Si una página web HTML 5 usa una codificación diferente a UTF-8, se debe especificar en el <meta> etiqueta como:
Ejemplo
<meta charset="ISO-8859-1">
La diferencia entre Unicode y UTF-8
Unicode es un conjunto de caracteres. UTF-8 está codificando.
Unicode es una lista de caracteres con números decimales únicas (code points) . A = 41, B = 42, C = 43, ....
Esta lista de números decimales representan la serie de "hello" : 104 101 108 108 111
La codificación es la forma en que estos números se traducen en números binarios para ser almacenados en un ordenador:
Codificación UTF-8 almacenará "Hola" como este (binary) : 01101000 01100101 01101100 01101100 01101111
Codificación se traduce en un número binario. Juegos de caracteres se traduce caracteres a números.
UTF-8 Códigos de caracteres HTML5
A continuación se muestra una lista de algunos de los caracteres UTF-8 códigos de caracteres soportados por HTML 5:
Los códigos de caracteres | Decimal | hexadecimal |
---|---|---|
Controles C0 y Latín básico | 0-127 | 0000-007F |
Controles C1 y Latin-1 Suplemento | 128-255 | 0080-00FF |
América Extended-A | 256-383 | 0100-017F |
América extendido-B | 384-591 | 0180-024F |
Los modificadores de espaciado | 688-767 | 02B0-02FF |
marcas diacríticas | 768-879 | 0300-036F |
Griego y copto | 880-1023 | 0370-03FF |
cirílico básico | 1024-1279 | 0400-04FF |
Suplemento cirílico | 1280-1327 | 0500-052F |
Puntuacion general | 8192-8303 | 2000-206F |
Símbolos de moneda | 8352-8399 | 20A0-20CF |
Símbolos a letras | 8448-8527 | 2100-214F |
Las flechas | 8592-8703 | 2190-21FF |
Operadores matemáticos | 8704-8959 | 2200-22FF |
Box Dibujos | 9472-9599 | 2500-257F |
elementos de bloque | 9600-9631 | 2580-259F |
Formas geométricas | 9632-9727 | 25A0-25FF |
Símbolos misceláneos | 9728-9983 | 2600-26FF |
dingbats | 9984-10175 | 2700-27BF |