正しくHTMLページを表示するには、ブラウザがどのような文字セットを知っている必要があります(character encoding)使用します。
HTML文字セット
HTMLで使用する正しい文字エンコーディングとは何ですか?
HTML5の場合、デフォルトの文字エンコーディングはUTF-8です。
これは、常にそうなっていません。 早期Web用の文字エンコーディングはASCIIでした。
その後、HTML 4.01のHTML 2.0から、ISO-8859-1が標準と考えられました。
XMLとHTML5を使用すると、UTF-8がようやく到着し、文字エンコーディングの問題の多くを解決しました。
以下は、文字エンコーディング標準の簡単な説明があります。
初めに:ASCII
コンピュータ情報(numbers, texts, and pictures) 2進数の1とゼロとして格納されている(01000101)エレクトロニクスインチ
英数字の格納を標準化するために、情報交換用米国標準コード(ASCII)作成されました。 これは、0-9からの数字をサポートするために、各保存可能な文字に一意のバイナリ7ビット数を定義し、大文字/小文字のアルファベット(az, AZ)などいくつかの特殊文字! $ + - ( ) @ <>。
ASCIIは、1バイト(文字の7ビット、および送信パリティ制御のためのビットのいずれか)を使用するので、それだけで128個の異なる文字を表すことができます。 加えて、これらの文字の32は、他の制御目的のために予約しました。
ASCIIとの最大の弱点は、それが英語以外の文字を除外していることでした。
ASCIIは、特に大規模なメインフレーム・コンピュータ・システムでは、広く使用され、今日でもあります。
よく見るために、私たちの勉強してください完全なASCIIリファレンスを 。
Windowsの場合:ANSI
ANSI (also called Windows-1252) Windows 95のまで、Windowsのデフォルトの文字セットでした。
ANSIは、追加の国際的な文字で、ASCIIを拡張したものです。 これは、完全なバイト使用(8-bits) 256個の異なる文字を表すために。
ANSIは、Windowsでデフォルトの文字セットされているので、それはすべてのブラウザでサポートされています。
よく見るために、私たちの勉強してください完全なANSIリファレンスを 。
ISO-8859-1:HTML 4では
ほとんどの国は、ASCII以外の文字を使用しているため、HTML 2.0標準のデフォルトの文字エンコーディングはISO-8859-1に変更しました。
ISO-8859-1は、追加の国際的な文字で、ASCIIを拡張したものです。 ANSIのように、それはASCIIよりも2倍の数の文字を表現するために、完全なバイトを使用しています。
ブラウザは、WebページにISO-8859-1を検出するとANSIはANSIが32余分な文字を持っていることを除き、ISO-8859-1と同一ですので、彼らは通常、ANSIにデフォルト設定します。
HTML 4のWebページが別の文字セットISO-8859-1以外を使用している場合は、それがで指定されなければならない<meta>タグのように:
例
<meta http-equiv="Content-Type" content="text/html;charset=ISO-8859-8">
HTML5のデフォルトの文字セットはUTF-8です。
すべてのHTML 4つのプロセッサは、UTF-8をサポートし、すべてのHTML5およびXMLプロセッサは、UTF-8とUTF-16の両方をサポートしています。
よく見るために、私たちの勉強してください完全なISO-8859-1参照を 。
UnicodeのUTF-8:HTML5で
上記の文字セットが制限され、多言語環境での互換性がないため、ユニコードコンソーシアムは、Unicode標準を開発しました。
Unicode標準カバー(almost)世界のすべての文字、句読点、および記号。
Unicodeは、プラットフォームや言語に依存しない処理、ストレージ、およびテキストの輸送を可能に。
HTML5でのデフォルトの文字エンコーディングはUTF-8です。
よく見るために、私たちの勉強してください完全なUnicodeのリファレンスを 。