이것은 문서의 이전 버전입니다!


여러 문자 인코딩으로 해석되는 문자열

깨진문자인코딩의 특수한 예로, 문자열이 둘 이상의 문자 인코딩으로 해석할 수 있는 경우 본래 해석이 아닌 다른 (보통은 어처구니 없는) 해석이 본래 해석을 대신해서 쓰이는 경우가 종종 존재한다.

Shift_JIS ↔ EUC-KR/Windows-949

Shift_JIS의 2바이트 인코딩과 Windows-949에서 추가된 확장 완성형이 상당 부분 겹치기 때문에 가장 흔히 볼 수 있는 사례이다.

  • 81 99 (Shift_JIS "☆" ↔ Windows-949 "걲"): Ryu☆가 "Ryu걲"으로 깨지는 이유.
  • 96 BB (Shift_JIS "冥" ↔ Windows-949 "뼸"): 비트매니아 IIDX의 곡 제목 을 종종 이렇게 부르기도 한다.

UTF-8 ↔ EUC-KR/Windows-949

UTF-8의 2바이트 인코딩과 EUC-KR 한글 영역(확장 완성형이 아니다!)은 대략 200여자 정도 겹친다. 이 때문에 짧은 EUC-KR 문자열이 UTF-8로 해석될 수도 있다. 그 밖에도 드물지만 3바이트 인코딩 두 개가 이어져서 올바른 확장 완성형으로 해석될 수 있다.

  • EF BF BD EF BF BD (UTF-8 "��" ↔ Windows-949 "占쏙옙"): 유니코드로 변환되던 도중 오류가 발생하여 U+FFFD 문자가 나타날 수 있는데, 이걸 잘못된 인코딩으로 불러 올 경우 흔히 나타난다.

도쿠위키DokuWiki-custom(rev 9085d92e02)을 씁니다.
마지막 수정 2011-11-14 00:03 | 작성자 lifthrasiir