목차

기본 다국어 평면

Basic Multilingual Plane (BMP). 유니코드국제 문자 집합(UCS)의 평면 0, 즉 U+0000부터 U+FFFF까지의 영역. 216개의 연속된 문자를 "평면"이라고 표현하는 것은 UCS에서 유래한 것으로, 유니코드와 UCS가 처음으로 동기화된 영역이기도 하다(지금은 전체 평면이 동기화되어 있다).

원래 유니코드는 216자(평면 한 개)만 사용하여 현대에 사용되는 문자만을 인코딩할 예정이었으며, 따라서 BMP는 현대에 사용하는 거의 모든 문자를 담고 있고 보조다국어평면(SMP) 등으로 빠지는 현대 문자는 거의 없다고 봐도 된다(호환성을 위한 것이나, 아주 드문 인명용 한자 등은 예외). 호환성을 위해 첫 128개의 문자(U+0000..007F)는 ASCII와 일치하고, 첫 256개의 문자(U+0000..00FF)는 ISO 8859-1과 일치한다. U+D800..DFFF까지는 서로게이트 영역으로 UTF-16에서의 사용을 위해 예약되어 있다.

한중일 문자

BMP에서 가장 많은 영역을 차지하는 것은 단연 한중일 문자로, 그 중에서도 27000자를 넘는 한자와, 11000자를 넘는 한글은 단일 문자로는 BMP 뿐만 아니라 유니코드에서 코드포인트가 가장 많이 할당된 문자이다.

BMP는 본래 현대에 사용되는 문자만 담으려고 했기 때문에 사용되지 않는 문자 체계는 최대한 배제를 하는 정책을 썼다. 그럼에도 불구하고 한글과 한자는 그 규모가 거대하기 때문에 그 때나 지금이나 꾸준히 논란이 되는 정책을 취하게 되었다.

같이 보기

1) 그런데 실제로 들어간 걸 보니까 별로 도움이 안 될 거라는 반응도 있다. The Secret Life of Variation Selectors 참고.