Unicode编码方案概述
1.
前面讲过,随着计算机发展到世界各地,于是各个国家和地区各自为政,搞出了很多既兼容ASCII但互相之间又不兼容的各种编码方案(微软统一称之为ANSI编码,具体体现为各种ANSI代码页)。
这样一来,同一个二进制编码在不同的ANSI编码方案中就有可能被解释成不同的字符,从而对采用不同ANSI编码方案的系统之间的数据交换带来了极大的不便。
比如大陆和台湾是只相隔150海里、使用着同一种语言的兄弟地区,也分别采用了不同的DBCS(Double Byte Character Set)双字节字符集编码方案。以前使用DOS操作系统的年代,大陆地区必须装上类似于“UCDOS希望汉字系统”这样的中文处理系统专门来处理采用GB类编码方案的汉字的显示、输入问题;而台湾地区由于采用BIG5编码方案(统一繁体字编码,俗称大五码,同样使用2个字节表示繁体汉字),则必须安装类似于“ET倚天汉字系统”这样的繁体中文处理系统才可以正确显示、输入采用BIG5编码方案的繁体汉字。
因此,要想打开一个文本文件,就必须首先知道它所采用的ANSI编码方案,否则用错误的ANSI编码方案进行解码,就会出现乱码。为什么早期的电子邮件常常出现乱码?多半是因为发信人和收信人使用的操作系统所采用的ANSI编码方案不一样。
2.
想象一下,如果有一种统一的编码方案,将世界上所有字符都纳入其中,每一个字符都给予一个全球独一无二的编码,那么乱码问题就会消失。于是,全球所有国家和地区使用的所有字符的统一编码方案诞生了。
最初,由世界上多家多语言软件开发商组成了统一码联盟(The Unicode Consortium),接着于1991年发布了The Unicode Standard(统一码标准),定义了一个全球统一的通用字符集,习惯简称为Unicode字符集(Unicode常被称为统一码、万国码、单一码,严格来说,这些称呼不够严谨或不够准确,因为Unicode字符集只是一个编号字符集CCS,尚未经过字符编码方式CEF和字符编码模式CES进行编码)。
接着,ISO及IEC也于1993年联合发布了一个标准号为ISO/IEC 10646-1的全球统一的通用字符集,称之为Universal Multiple-Octet Coded Character Set(通用多八位组编号字符集,习惯翻译为“通用多八位编码字符集”,但这里将Coded翻译为“编码的”极易误导人),简称为Universal Character Set(即通用字符集,缩写为UCS)。
后来,统一码联盟与ISO/IEC双方都意识到世界上没有必要存在两套全球统一的通用字符集,于是两者开始合作,共同为创立一个单一的全球统一的通用字符集而协同工作。到了Unicode 2.0标准发布时,Unicode字符集和UCS字符集(即ISO/IEC 10646-1)基本保持了一致。
虽然现在这两个标准仍然独立存在,但统一码联盟和ISO/IEC都同意保持两者的通用字符集相互兼容,并共同调整未来的任何扩展。
目前,Unicode的知名度要比UCS大得多,实践中的应用也更为广泛得多,已成为了全球统一的通用字符集或编码方案的代名词。因此,Unicode字符编码方案已经成为了全球统一字符编码方案事实上的标准。
3.
Unicode字符集的目标是涵盖目前人类使用的所有字符,并为每个字符分配唯一的字符编号(即码点编号、码点值),一一对应于编号空间(Code Space代码空间、码空间、码点空间)里的码点(Code Point代码点)。
目前,Unicode字符集将所有字符按照使用上的频繁度划分为了17个平面(Plane),每个平面上的编号空间有2^16=65536个码点。将来根据需要,还可扩展为更多平面。
(笨笨阿林原创文章,转载请注明出处)
4.
其中第0个平面BMP(Basic Multilingual Plane,也称为基本多语言平面、基本多文种平面,往往简称为基本平面、平面0),基本涵盖了当今世界上正在使用中的常用字符。我们平常用到的字符,一般都是位于BMP平面上的。
BMP平面以外其他的增补平面SP(Supplementary Plane,也称为辅助平面)要么用来表示一些非常特殊的字符(比如不常用的象形文字、远古时期的文字等),且多半只有专家在历史和科学领域里才会用到它们;要么被留作扩展之用。目前Unicode字符集的17个平面中尚有大量编号空间未被使用。
另外,BMP平面中有一个私用区(也称为专用区,即PUA:Private Use Area,也写作PUZ:Private Use Zone):0xE000~0xF8FF(十进制57344~63743),共6400个码点,被保留为私用,Unicode官方未将之分配给任何Unicode字符,因而可根据需要由合作者之间私下协商将其分配给私有字符(类似于Glyphicons、FontAwesome、fontello这样的私有图标字体字符,其码点就是使用的私用区中的码点);还有一个被称为代理区(Surrogate Zone)的特殊区域:0xD800-0xDFFF(十进制55296~57343),共2048个码点,这些码点被称之为代理码点,目的是用基本平面BMP中的两个码点“代理”表示BMP以外的其他增补平面SP中的字符(解释详见后文)。
(注:Unicode标准到目前为止实际上共定义了三个私用区:一个为如上所述的第0平面(即BMP)中的U+E000~U+F8FF,另外两个几乎包含了整个第15平面和第16平面,分别为U+F0000~U+FFFFD和U+100000~U+10FFFD。私用区相当于可以由Unicode官方之外的个人和机构自由定义字符的特殊区域,因此私用区中的同一个码点,可被分配给不同的字符,具体是哪个字符取决于字体文件,从而不同的用户由于安装了不同的字体文件,有可能所看到的字符也不同。)
Unicode字符集中的平面与字符映射范围
5.
Unicode字符集的字符编码方式一开始规定用两个字节的码元(即16位码元)来统一表示所有的字符(即UTF-16编码方式;注意:UTF-16编码方式要早于UTF-32、UTF-8编码方式出现,详见后文)。
对于ASCII字符,与前面介绍的ANSI编码一样,Unicode也保持其原编码不变(准确地说,应该是保持其“编号不变”,因为在传统字符编码模型中,编号与编码不作区分,说“编码不变”也勉强可以),只是在UTF-16字符编码方式中将其长度由原来的8位扩展为16位(注意,这里的字符编码方式CEF还只是逻辑意义上的码元序列,不是字符编码模式CES——即物理意义上的字节序列),而ASCII字符之外的其他字符则全部重新统一编码。
由于ASCII字符只需要用到UTF-16的16位编码中的低8位(即低字节),所以其高8位(即高字节)永远是0(实际上也只用到了低8位中的低7位,因此准确地说其高9位永远是0)。
6.
在Unicode标准最初推出的UTF-16字符编码方式中,无论是半角的英文字母,还是全角的汉字,它们都表示统一的“一个字符”,同时其编码也都是统一的“两个字节”(UTF-16属于双字节码元编码方式,而Unicode标准在UTF-16字符编码方式之后所推出的UTF-8字符编码方式则属于单字节码元编码方式,两者之间的关系与区别详见后文)。
请注意这里的“字符”和“字节”两个术语其意义上的不同:“字节”是一个与计算机相关的物理意义上的8位存储单元,而“字符”则是一个与文化相关的逻辑意义上的文字符号。
7.
在Unicode标准推出之前,那些做多语言国际软件的公司遇上过很大麻烦。他们为了在不同的国家销售同一套软件,就不得不特别注意字符编码的问题。不仅要处处小心不要搞错,还要把软件中的文字在不同的字符编码中转换来转换去,而Unicode标准的出现,提供了一个很好的一揽子解决方案。
于是从Windows NT开始,微软趁机把操作系统改了一遍,把所有的核心代码都改成了采用Unicode标准的版本(实际使用的就是Unicode标准的UTF-16字符编码方式CEF下的Little-Endian小端序字符编码模式CES,详见后文解释)。
从Windows NT开始,Windows系统终于不需要再加装各种本土语言系统(比如“UCDOS希望汉字系统”、“ET倚天汉字系统”之类的),就可以直接显示全世界所有的字符了。当然,为了保持兼容性,对于之前的ANSI编码方案,Windows同样进行了支持。
(笨笨阿林原创文章,转载请注明出处)
8.
Unicode在刚开始制订UTF-16字符编码时,并没有考虑与任何一种现有的字符编码保持完全兼容,比如GBK与Unicode在汉字的编码上是完全不一样的,没有任何一种简单的算法可以将文本内容在UTF-16编码和GBK编码之间进行直接转换,要转换的话只能通过查表这样低效率的笨办法一个字符对应一个字符地来进行。
即便是ASCII字符,也属于不完全的间接兼容或者说半兼容,因为UTF-16编码也是用两个字节来表示ASCII字符的,虽然其低7位与ASCII编码保持了一致,其余高位的9位均只是占位的0,但毕竟还是使用了16位共两个字节,不同于ASCII的单字节编码。正是鉴于此(当然除此之外还有其他原因),于是后来又设计了UTF-8字符编码方式,则实现了与ASCII编码的完全兼容(后文有详细解释)。
9.
从字符集的角度上来讲,Unicode字符集不同于ASCII这样不能再增加字符的封闭字符集,而是一个开放的字符集,是可以不断地增加字符的。因此Unicode字符集也在不断发展中(比如随着互联网即时聊天工具的发展而流行起来的很多Emoji表情符就不断地被增加到了Unicode字符集里),理论上支持的字符数量是没有上限的,未来还可再扩展。
(注意,很多文章中,有时候称字符集,有时候称字符编码方案,大致上来讲,字符集与字符编码方案经常被视为同义词,尤其是在传统字符编码模型中。但若深究起来的话,在现代字符编码模型中,由于字符集实际上为编号字符集CCS的简称,因此字符编码方案实际上涵盖了字符集。具体可参看前面对于现代字符编码模型的解释。)
Unicode字符集中的Emoji表情字符
10.
另外,与Unicode字符集基本保持兼容的ISO/IEC UCS字符集,最初先后定义了UCS-2(2-byte Universal Character Set)和UCS-4(4-byte Universal Character Set)两种编码方式。
UCS-2与之后定义的相当于是UCS-2的扩展版本的UTF-16编码方式很类似,与UTF-16的区别在于UCS-2没有定义代理区(详见后文中有关UTF-16编码方式的介绍),因此UCS-2只能编码基本平面BMP中的字符,无法编码增补平面SP中的字符,因而基本已被弃用;而UCS-4用四个字节中的31位来表示一个字符的码点编号,可表示21亿个不同的字符(2^31=2147483648;最高位为0,另有用途。UCS-4目前完全等同于UTF-32。
不过,实践中UCS字符集应用得不多,基本以Unicode字符集为主,因此了解一下即可,这里不作详细介绍。
11.
Unicode字符集不仅给每个字符根据其所在的码点分配了一个唯一的码点值(即码点编号,不严格地来讲,也勉强可认为是字符编号,注意不要跟UTF-16、UTF-8等字符编码方式CEF混淆了概念),而且赋予了一个正式的名称:在表示一个Unicode码点编号(或UCS码点编号)的十六进制数的前面加上“U+”,称之为码点名称,或字符名称(考虑到有部分码点实际上并未分配字符,因此应称为“码点名称”更为合适,但很多文章中都习惯称为“字符名称”)。
比如,U+0041表示英语大写字母A,U+4E25表示汉字“严”。具体的字符对应表,可以查询unicode.org,其中汉字部分也可查询专门的中日韩汉字Unicode编码表。
Unicode字符集中的U+0000~U+007F(即十进制的0~127)与ASCII字符集(即ISO/IEC 646标准)是一致的,U+0000~U+00FF(即十进制的0~255)与ISO/IEC 8859-1字符集(即Latin-1字符集)也是一致的。
(笨笨阿林原创文章,转载请注明出处)
【预告:下一篇将重点讲解令无数人头大的字节序(大端序、小端序),敬请关注!】