Character encoding. 문자 집합에 있는 문자들을 적절한 바이트의 열로 표현하는 방법. 많은 문자 집합이 문자 인코딩의 역할을 겸하기도 하지만 실제로는 구분되는 개념이다.
문자 인코딩은 그 접근 방법에 따라서 크게 세 가지로 나눌 수 있다:
1바이트 문자 인코딩: 많은 언어들이 256개보다 훨씬 적은 문자만을 필요로 하기 때문에, 해당 언어의 문자만 쓴다면 모든 문자를 1바이트로 표현하는 것이 편리하다. 실질적으로는 첫 128개를
ISO/IEC 646 계열의 문자 집합으로 채우는 것이 일반적이다.
ISO 2022 및
확장유닉스코드: 여러 종류의 문자 집합을 서로 갈아 끼워 가면서 사용할 수 있는(또는 적어도 그렇게 구성되어 있는) 문자 인코딩. 문자 수가 256개로는 턱이 없는
한중일 계열에서 흔히 나타난다.
기타 멀티바이트 문자 인코딩:
UTF-8과 같이 비교적 최근에 나타난
모든 다른 인코딩을 끝장낼 인코딩을 제외하면 여기에 속하는 인코딩은 상당히 드물다.
여기서는 문자 집합과 문자 인코딩이 서로 일치하지 않는 경우만 나열한다. 나머지는 문자 집합의 목록을 참고하라.