一直觉得不是由中国人发明的计算机,却可以使用汉字进行界面交互非常神奇。今天就来和大家聊一下关于汉字编码的最底层的逻辑。
(1)汉字信息交换码(国标码)
汉字交换码是指不同的具有汉字处理功能的计算机系统之间在交换汉字信息时所使用的代码标准。
国家标准GB2312-80提出了中华人民共和国国家标准信息交换用汉字编码,简称国标码。国标码有时又称区位码。
GB2312-80标准包括了6763个汉字,按其使用额度分为一级汉字3755个和二级汉字3008个。
一级汉字按拼音排序,二级汉字按部首排序。此外,该标准还包括标点符号、数种西文字母、图形、数码等符号682个。
区位码的区码和位码均采用从01到94的十进制,国标码采用十六进制的21H到7EH(数字后加H表示其为十六进制数)。
区位码和国标码的换算关系是:区码和位码分别加上十进制数32。如“国”字在表中的25行90列,其区位码为2590,国标码是397AH。
汉字编码过程总览
(2)汉字输入码(外码)
输入码也叫外码,是用来将汉字输入到计算机中的一组键盘符号。
常用的输入码与拼音码、五笔字型码、自然码、表形码、认知码、区位码和电报码等,一种好的编码应有编码规则简单、易学好记、操作方便、重码率低、输入速度快等优点,每个人可根据自己的需要进行选择。
(3)汉字机内码
汉字机内码,简称“内码”。指计算机内部存储、处理加工和传输汉字时所用的由0和1符号组成的代码。输入码被接收后就由汉字操作系统的“输入码转换模块”转换为机内码,与所采用的键盘输入法无关。
机内码是汉字最基本的编码且内码是唯一的,不管是什么汉字系统和汉字输入方法,输入的汉字外码到机器内部都要转换成机内码,才能被存储和进行各种处理。
字型点阵图
(4)汉字字型码
字型码是汉字的输出码,输出汉字时都采用图形方式,无论汉字的笔画多少,每个汉字都可以写在同样大小的方块中。
汉字字型码通常有两种表示方式:点阵和矢量(轮廓)表示方法。汉字字型通常分为通用型和精密型。
用点阵表示字型时,汉字字型码指的是这个汉字字型点阵的代码。根据输出汉字的要求不同,点阵的多少也不同。简易型汉字为16*16点阵,提高型汉字为24*24点阵、32*32点阵、48*48点阵等等。点阵规模越大,字型越清晰美观,所占存储空间也越大。注:字型码所占字节数=点阵行数*点阵列数/8。
矢量表示方式存储的是描述汉字字型的轮廓特征,当要输出汉字时,通过计算机的计算,由汉字字型描述生成所需大小和形状的汉字点阵。
矢量化字型描述与最终文字显示的大小、分辨率无关,因此可以产生高质量的汉字输出。Windows中使用的TrueType技术就是汉字的矢量表示方式。
(5)汉字地址码
汉字地址码是指汉字库中存储汉字字型信息的逻辑地址码。
(6)各种汉字代码之间的关系
汉字的输入、处理和输出的过程,实际上是汉字的各种代码之间的转换过程,或者说是汉字代码在系统有关部件之间流动的过程。
汉字输入码向内码的转换,是通过使用输入字典实现的。
举报/反馈