ユニコードコンソーシアム
ユニコードコンソーシアムは、Unicode標準を開発しています。 彼らの目標は、標準のUnicode変換フォーマットで、既存の文字セットを交換することです(UTF)
Unicode標準は、成功となっており、また、多くのオペレーティングシステムおよびすべての最新ブラウザでサポートされているなどのUnicode標準のHTML、XMLやJava、JavaScriptの、Eメール、ASP、PHPで実装されています。
ユニコードコンソーシアムは、ISO、W3C、およびECMAなどの主要な標準開発組織と協力しています。
Unicodeの文字セット
Unicodeは、異なる文字セットで実現することができます。 最も一般的に使用されるエンコーディングはUTF-8とUTF-16です。
キャラクターセット | 説明 |
---|---|
UTF-8 | UTF8の文字の長さは1〜4バイトであることができます。 UTF-8は、Unicode標準の任意の文字を表すことができます。 UTF-8はASCIIとの下位互換性があります。 UTF-8は、電子メールやWebページのための好適なエンコーディングです |
UTF-16 | 16ビットユニコード変換フォーマットは、全体のUnicodeレパートリーをコードすることができるUnicodeの可変長文字エンコーディングです。 UTF-16は、Microsoft Windows、Javaと.NETのように、主要なオペレーティングシステムおよび環境で使用されています。 |
Tip:ユニコードの最初の128文字(which correspond one-to-one with ASCII)有効なASCIIテキストが有効もUnicodeをUTF-8でエンコードされた作り、ASCIIと同じバイナリ値を有する単一のオクテットを使用して符号化されます。
HTML 4は、UTF-8をサポートしています。 HTML 5は、UTF-8とUTF-16の両方をサポートしています!
HTML5標準:UnicodeのUTF-8
ISO-8859の文字セットのサイズが制限され、多言語環境での互換性がありませんでしたので、ユニコードコンソーシアムは、Unicode標準を開発しました。
Unicode標準カバー(almost)世界のすべての文字、句読点、および記号。
Unicodeは、処理、保管、およびプラットフォームや言語のテキストの独立の輸送を可能にします。
HTML-5のデフォルトの文字エンコーディングはUTF-8です。
HTML5のWebページがUTF-8とは異なる文字セットを使用している場合は、それがで指定されなければならない<meta>タグのように:
例
<meta charset="ISO-8859-1">
UnicodeとUTF-8の違い
Unicodeは文字セットです。 UTF-8でエンコーディングです。
Unicodeは、ユニーク進数と文字のリストである(code points) 。 A = 41、B = 42、C = 43、...
小数のこのリストの文字列を表す"hello" :104 101 108 108 111
エンコーディングは、これらの数字は、コンピュータに格納されるように進数に変換する方法です。
このような"ハロー"格納するUTF-8エンコーディング(binary) :01101000 01100101 01101100 01101100 01101111
エンコーディングはバイナリに数値を変換します。 文字セットは、文字を数字に変換します。
HTML5のUTF-8文字コード
以下はHTML5でサポートされているUTF-8文字コードのいくつかのリストは、次のとおりです。
文字コード | 小数 | 進 |
---|---|---|
C0制御および基本ラテン | 0-127 | 0000-007F |
C1コントロールとラテン1補助 | 128-255 | 0080-00FF |
ラテン拡張A | 256-383 | 0100-017F |
ラテン拡張B | 384-591 | 0180-024F |
間隔修飾子 | 688-767 | 02B0-02FF |
ダイアクリティカルマーク | 768-879 | 0300-036F |
ギリシャ語とコプト | 880-1023 | 0370-03FF |
キリル基本 | 1024-1279 | 0400-04FF |
キリルサプリメント | 1280-1327 | 0500-052F |
一般句読点 | 8192-8303 | 2000-206F |
通貨記号 | 8352-8399 | 20A0-20CF |
シンボルLetterlike | 8448-8527 | 2100-214F |
アローズ | 8592-8703 | 2190-21FF |
算術演算子 | 8704-8959 | 2200-22FF |
ボックス図面 | 9472-9599 | 2500-257F |
ブロック要素 | 9600-9631 | 2580-259F |
幾何学図形 | 9632-9727 | 25A0-25FF |
その他の記号 | 9728-9983 | 2600-26FF |
ばかです | 9984-10175 | 2700-27BF |