최신 웹 개발 튜토리얼
 

HTML 유니 코드 (UTF-8) 참조


유니 코드 컨소시엄

유니 코드 컨소시엄은 유니 코드 표준을 개발한다. 그들의 목표는 표준 유니 코드 변환 포맷으로 기존의 문자 집합을 대체하는 것입니다 (UTF) .

유니 코드 표준은 성공이되었고 또한 많은 운영 체제 및 모든 최신 브라우저에서 지원되는 등 유니 코드 표준 HTML, XML, 자바, 자바 스크립트, 전자 메일, ASP, PHP에서 구현됩니다.

유니 코드 컨소시엄은 ISO, W3C와 ECMA와 같은 주요 표준 개발기구와 협력한다.


유니 코드 문자 집합

유니 코드는 다른 문자 집합에 의해 구현 될 수있다. 가장 일반적으로 사용되는 인코딩은 UTF-8과 UTF-16 :

문자 집합 기술
UTF-8 UTF8에있는 문자는 긴 1 ~ 4 바이트에서 할 수있다. UTF-8은 유니 코드 표준의 모든 문자를 표시 할 수 있습니다. UTF-8은 ASCII와 역 호환됩니다. UTF-8은 전자 메일 및 웹 페이지의 기본 인코딩입니다
UTF-16 16 비트 유니 변환 형식은 전체 유니 레퍼토리를 인코딩 할 수있는 유니 코드에 대한 가변 길이 문자 인코딩된다. UTF-16은 마이크로 소프트 윈도우, 자바와 .NET 같은 주요 운영 체제와 환경에서 사용된다.

Tip: 유니의 첫 128 개 문자 (which correspond one-to-one with ASCII) 유효한 ASCII 텍스트 유효한 아니라 유니 UTF-8 인코딩하게 ASCII와 동일한 이진 값을 하나의 옥텟을 사용하여 인코딩된다.

HTML 4는 UTF-8을 지원합니다. HTML 5는 UTF-8과 UTF-16을 모두 지원!


HTML5의 표준 : 유니 코드 UTF-8

ISO-8859의 문자 집합은 크기에 제한이 있고 다국어 환경에 호환되지 않았기 때문에, 유니 코드 컨소시엄은 유니 코드 표준을 개발했다.

유니 코드 표준 커버 (almost) 세상의 모든 문자, 구두점, 기호.

유니 코드 처리, 저장 및 플랫폼과 언어의 텍스트 독립의 전송을 가능하게한다.

HTML-5의 기본 문자 인코딩은 UTF-8입니다.

HTML5 버전의 웹 페이지가 UTF-8이 아닌 다른 문자 집합을 사용하는 경우, 그것은에 지정해야합니다 <meta> 태그와 같은 :

<meta charset="ISO-8859-1">

유니 코드와 UTF-8의 차이

유니 코드 문자 집합입니다. UTF-8 인코딩된다.

유니 코드는 고유의 진수와 문자의 목록입니다 (code points) . A = 41, B = 42, C = 43, ...

소수의 목록은 문자열 표현 "hello" 104 101 108 108 111 :

인코딩이 숫자가 컴퓨터에 저장되는 이진수로 변환하는 방법입니다 :

이런 "안녕하세요"저장할 UTF-8 인코딩 (binary) : 01101000 01100101 01101100 01101100 01101111

인코딩 이진로 숫자를 변환합니다. 문자 세트는 숫자에 문자를 변환합니다.


HTML5의 UTF-8 문자 코드

다음은 HTML5에서 지원되는 UTF-8 문자 코드의 일부 목록입니다 :

문자 코드 소수 진수
C0 제어 및 기본 라틴 0-1270000-007F
C1 컨트롤 및 라틴어 -1 추가 128-2550080-00FF
라틴 확장-A 256-3830100-017F
라틴 확장-B 384-5910180-024F
간격 수정 688-76702B0-02FF
구별 부호 768-8790300-036F
그리스와 콥트 880-10230370-03FF
키릴 기본 1024-12790400-04FF
키릴 보충 1280-13270500-052F
일반 구두점 8192-83032000-206F
통화 기호 8352-839920A0-20CF
문자와 비슷한 기호 8448-85272100-214F
화살표 8592-87032190-21FF
수학 연산자 8704-89592200-22FF
상자 그림 9472-95992500-257F
블록 요소 9600-96312580-259F
기하학적 모양 9632-972725A0-25FF
기타 기호 9728-99832600-26FF
돌연변이 9984-101752700-27BF