Unicode和UTF-8

一.各地的方言

首先说明一下现在常用的一些编码方案:
在中国,大陆最常用的就是 GBK18030 编码,除此之外还有 GBK , GB2312 ,这几个编码的关系是这样的。

  • 最早制定的汉字编码是 GB2312 ,包括 6763 个汉字和 682 个其它符号。
  • 95 年重新修订了编码,命名 GBK1.0 ,共收录了 21886 个符号。
  • 之后又推出了 GBK18030 编码,共收录了 27484 个汉字,同时还收录了藏文、蒙文、维吾尔文等主要的少数民族文字,现在 WINDOWS 平台必需要支持 GBK18030 编码。

按照 GBK18030 、 GBK 、 GB2312 的顺序,3种编码是向下兼容,同一个汉字在三个编码方案中是相同的编码。
2.台湾,香港等地使用的是 BIG5 编码
3.日本: SJIS 编码

Read the rest of this entry »

Tags: ,