문자 인코딩

Character encoding. 문자 집합에 있는 문자들을 적절한 바이트의 열로 표현하는 방법. 많은 문자 집합이 문자 인코딩의 역할을 겸하기도 하지만 실제로는 구분되는 개념이다.

문자 인코딩은 그 접근 방법에 따라서 크게 세 가지로 나눌 수 있다:

1바이트 문자 인코딩: 많은 언어들이 256개보다 훨씬 적은 문자만을 필요로 하기 때문에, 해당 언어의 문자만 쓴다면 모든 문자를 1바이트로 표현하는 것이 편리하다. 실질적으로는 첫 128개를 ISO/IEC 646 계열의 문자 집합으로 채우는 것이 일반적이다.
ISO 2022 및 확장유닉스코드: 여러 종류의 문자 집합을 서로 갈아 끼워 가면서 사용할 수 있는(또는 적어도 그렇게 구성되어 있는) 문자 인코딩. 문자 수가 256개로는 턱이 없는 한중일 계열에서 흔히 나타난다.
기타 멀티바이트 문자 인코딩: UTF-8과 같이 비교적 최근에 나타난 모든 다른 인코딩을 끝장낼 인코딩을 제외하면 여기에 속하는 인코딩은 상당히 드물다.

여기서는 문자 집합과 문자 인코딩이 서로 일치하지 않는 경우만 나열한다. 나머지는 문자 집합의 목록을 참고하라.

도쿠위키와 DokuWiki-custom(rev 9085d92e02)을 씁니다.
마지막 수정 2011-05-30 18:25 | 외부 편집기