最新のWeb開発のチュートリアル
 

HTML文字セット


正しくHTMLページを表示するには、ブラウザが文字セット(文字エンコーディング)を使用することを知っている必要があります。


HTML文字セット

HTMLで使用する正しい文字エンコーディングとは何ですか?

HTML5については、デフォルトの文字エンコーディングはUTF-8です。

これは必ずしもそうではなかったです。 早期Web用の文字エンコーディングはASCIIでした。

その後、HTML 4.01のHTML 2.0から、ISO-8859-1が標準と考えられました。

XMLとHTML5を使用すると、UTF-8は、最終的に到着し、文字エンコーディングの問題の多くを解決しました。

以下の文字エンコーディング標準の簡単な説明があります。


初めに:ASCII

コンピュータ情報(番号、テキスト、および画像)はエレクトロニクスのバイナリとゼロ(01000101)として保存されます。

英数字の記憶を標準化するために、情報交換用米国標準コード(ASCII)を作成しました。 それは0-9から数値をサポートするために、各貯蔵可能な文字に一意のバイナリ7ビット数を定義して、大文字/小文字、英語のアルファベット(aからz、AからZ)、などいくつかの特殊文字! $ + - ()@ <>。

ASCIIは、1バイト(文字の7ビット、および送信パリティ制御のためのビットの1つ)を使用するので、それだけで128の異なる文字を表すことができます。 さらに、これらの文字の32は、他の制御目的のために予約されました。

ASCIIとの最大の弱点は、それが英語以外の文字を除外していることでした。

ASCIIは、特に大規模なメインフレーム・コンピュータ・システムでは、広く使用され、今日でもあります。

よく見るために、私たちの勉強してください完全なASCIIリファレンスを


Windowsの場合:ANSI

(また、Windows-1252と呼ばれる)ANSIは、Windows 95まで、Windowsのデフォルトの文字セットでした。

ANSIが追加された国際的な文字で、ASCIIの拡張機能です。 これは、256種類の文字を表現するために、完全なバイト(8ビット)を使用しています。

ANSIは、Windowsにデフォルト文字セットされているので、それはすべてのブラウザでサポートされています。

よく見るために、私たちの勉強してください完全なANSIリファレンス


ISO-8859-1:HTML 4では

ほとんどの国は、ASCII以外の文字を使用しているため、HTML 2.0標準のデフォルトの文字エンコーディングはISO-8859-1に変更されました。

ISO-8859-1が追加された国際的な文字で、ASCIIの拡張機能です。 ANSIのように、それはASCIIの2倍として多くの文字を表現するために、完全なバイトを使用しています。

注意 ブラウザがWebページにISO-8859-1を検出すると、ANSIは、ANSIは32余分な文字を持っていることを除き、ISO-8859-1と同一であるため、彼らは通常、ANSIにデフォルト設定します。

HTML 4のウェブページが異なる文字セットISO-8859-1以外を使用している場合、それはで指定する必要があります<meta>タグ:

<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
»それを自分で試してみてください

注意

HTML5のデフォルトの文字セットはUTF-8です。
すべてのHTML 4のプロセッサは、UTF-8をサポートし、すべてのHTML5およびXMLプロセッサは、UTF-8とUTF-16の両方をサポートしています。

よく見るために、私たちの勉強してください完全なISO-8859-1の参照を


UnicodeのUTF-8:HTML5で

上記の文字セットが制限され、多言語環境での互換性がないため、ユニコードコンソーシアムは、Unicode標準を開発しました。

Unicode標準カバー(ほぼ)世界のすべての文字、句読点、および記号。

Unicodeは、プラットフォームや言語に依存しない処理、ストレージ、およびテキストの輸送を可能にします。

HTML5のデフォルトの文字エンコーディングはUTF-8です。

よく見るために、私たちの勉強してください完全なUnicodeのリファレンスを