유니 코드 컨소시엄
유니 코드 컨소시엄은 유니 코드 표준을 개발한다. 그들의 목표는 표준 유니 코드 변환 포맷으로 기존의 문자 집합을 대체하는 것입니다 (UTF) .
유니 코드 표준은 성공이되었고 또한 많은 운영 체제 및 모든 최신 브라우저에서 지원되는 등 유니 코드 표준 HTML, XML, 자바, 자바 스크립트, 전자 메일, ASP, PHP에서 구현됩니다.
유니 코드 컨소시엄은 ISO, W3C와 ECMA와 같은 주요 표준 개발기구와 협력한다.
유니 코드 문자 집합
유니 코드는 다른 문자 집합에 의해 구현 될 수있다. 가장 일반적으로 사용되는 인코딩은 UTF-8과 UTF-16 :
문자 집합 | 기술 |
---|---|
UTF-8 | UTF8에있는 문자는 긴 1 ~ 4 바이트에서 할 수있다. UTF-8은 유니 코드 표준의 모든 문자를 표시 할 수 있습니다. UTF-8은 ASCII와 역 호환됩니다. UTF-8은 전자 메일 및 웹 페이지의 기본 인코딩입니다 |
UTF-16 | 16 비트 유니 변환 형식은 전체 유니 레퍼토리를 인코딩 할 수있는 유니 코드에 대한 가변 길이 문자 인코딩된다. UTF-16은 마이크로 소프트 윈도우, 자바와 .NET 같은 주요 운영 체제와 환경에서 사용된다. |
Tip: 유니의 첫 128 개 문자 (which correspond one-to-one with ASCII) 유효한 ASCII 텍스트 유효한 아니라 유니 UTF-8 인코딩하게 ASCII와 동일한 이진 값을 하나의 옥텟을 사용하여 인코딩된다.
HTML 4는 UTF-8을 지원합니다. HTML 5는 UTF-8과 UTF-16을 모두 지원!
HTML5의 표준 : 유니 코드 UTF-8
ISO-8859의 문자 집합은 크기에 제한이 있고 다국어 환경에 호환되지 않았기 때문에, 유니 코드 컨소시엄은 유니 코드 표준을 개발했다.
유니 코드 표준 커버 (almost) 세상의 모든 문자, 구두점, 기호.
유니 코드 처리, 저장 및 플랫폼과 언어의 텍스트 독립의 전송을 가능하게한다.
HTML-5의 기본 문자 인코딩은 UTF-8입니다.
HTML5 버전의 웹 페이지가 UTF-8이 아닌 다른 문자 집합을 사용하는 경우, 그것은에 지정해야합니다 <meta> 태그와 같은 :
예
<meta charset="ISO-8859-1">
유니 코드와 UTF-8의 차이
유니 코드 문자 집합입니다. UTF-8 인코딩된다.
유니 코드는 고유의 진수와 문자의 목록입니다 (code points) . A = 41, B = 42, C = 43, ...
소수의 목록은 문자열 표현 "hello" 104 101 108 108 111 :
인코딩이 숫자가 컴퓨터에 저장되는 이진수로 변환하는 방법입니다 :
이런 "안녕하세요"저장할 UTF-8 인코딩 (binary) : 01101000 01100101 01101100 01101100 01101111
인코딩 이진로 숫자를 변환합니다. 문자 세트는 숫자에 문자를 변환합니다.
HTML5의 UTF-8 문자 코드
다음은 HTML5에서 지원되는 UTF-8 문자 코드의 일부 목록입니다 :
문자 코드 | 소수 | 진수 |
---|---|---|
C0 제어 및 기본 라틴 | 0-127 | 0000-007F |
C1 컨트롤 및 라틴어 -1 추가 | 128-255 | 0080-00FF |
라틴 확장-A | 256-383 | 0100-017F |
라틴 확장-B | 384-591 | 0180-024F |
간격 수정 | 688-767 | 02B0-02FF |
구별 부호 | 768-879 | 0300-036F |
그리스와 콥트 | 880-1023 | 0370-03FF |
키릴 기본 | 1024-1279 | 0400-04FF |
키릴 보충 | 1280-1327 | 0500-052F |
일반 구두점 | 8192-8303 | 2000-206F |
통화 기호 | 8352-8399 | 20A0-20CF |
문자와 비슷한 기호 | 8448-8527 | 2100-214F |
화살표 | 8592-8703 | 2190-21FF |
수학 연산자 | 8704-8959 | 2200-22FF |
상자 그림 | 9472-9599 | 2500-257F |
블록 요소 | 9600-9631 | 2580-259F |
기하학적 모양 | 9632-9727 | 25A0-25FF |
기타 기호 | 9728-9983 | 2600-26FF |
돌연변이 | 9984-10175 | 2700-27BF |