이것은 문서의 이전 버전입니다!


기본 다국어 평면

Basic Multilingual Plane (BMP). 유니코드국제 문자 집합(UCS)의 평면 0, 즉 U+0000부터 U+FFFF까지의 영역. 216개의 연속된 문자를 "평면"이라고 표현하는 것은 UCS에서 유래한 것으로, 유니코드와 UCS가 처음으로 동기화된 영역이기도 하다(지금은 전체 평면이 동기화되어 있다).

원래 유니코드는 216자(평면 한 개)만 사용하여 현대에 사용되는 문자만을 인코딩할 예정이었으며, 따라서 BMP는 현대에 사용하는 거의 모든 문자를 담고 있고 보조다국어평면(SMP) 등으로 빠지는 현대 문자는 거의 없다고 봐도 된다(호환성을 위한 것이나, 아주 드문 인명용 한자 등은 예외). 호환성을 위해 첫 128개의 문자(U+0000..007F)는 ASCII와 일치하고, 첫 256개의 문자(U+0000..00FF)는 ISO 8859-1과 일치한다. U+D800..DFFF까지는 서로게이트 영역으로 UTF-16에서의 사용을 위해 예약되어 있다.

한중일 문자

BMP에서 가장 많은 영역을 차지하는 것은 단연 한중일 문자로, 그 중에서도 27000자를 넘는 한자와, 11000자를 넘는 한글은 단일 문자로는 BMP 뿐만 아니라 유니코드에서 코드포인트가 가장 많이 할당된 문자이다.

BMP는 본래 현대에 사용되는 문자만 담으려고 했기 때문에 사용되지 않는 문자 체계는 최대한 배제를 하는 정책을 썼다. 그럼에도 불구하고 한글과 한자는 그 규모가 거대하기 때문에 그 때나 지금이나 꾸준히 논란이 되는 정책을 취하게 되었다.

  • 한글은 본래 유니코드 1.0.0에서는 KS X 1001의 2350자만 취했다(!). 그러나 1.1에서 KS X 1003 및 기타 여기 저기서 가져온 4306자를 더 추가한 뒤에야 이 정책이 영 좋지 않았음이 확인되었고, 결국 2.0에서 영역을 모두 갈아 엎으면서 현대 한글 11172자를 모두 집어 넣으며 문제가 일단락된다. (이 과정에서 대한민국 정부의 로비가 꽤 있었다는 얘기가 있다) 이 때문에 유니코드 인코딩 안정성 정책은 2.0 이후에만 적용된다.
  • 한자는 더 심각해서, 유니코드 1.0.1에 처음 한자가 들어갈 때는 정자와 간자, 약자의 차이를 모두 무시한 한중일통합한자를 사용했다. 이 정책은 꾸준히 욕을 먹고 있는데, 이렇게 통합을 한 뒤에도 한자가 여전히 BMP의 1/3을 차지했다(…)는 점을 생각하면 당시에는 어쩔 수 없는 선택이었을 수도 있다. 이 상황은 후에 원하는 문자 모양(글리프)을 직접 선택할 수 있는 상형 문자 변형 데이터베이스(IVD)의 추가로 눈꼽만큼 나아졌다.

같이 보기


도쿠위키DokuWiki-custom(rev 9085d92e02)을 씁니다.
마지막 수정 2011-12-31 17:38 | 외부 편집기