gb2312编码表_汉字编码输入系统模型(一)

通过前面介绍的通信系统模型来分析汉字编码输入系统,将汉字编码输入系统的特殊性整合到通信系统模型中,从而建立起一种基于信息论的汉字编码输入系统模型(参见图3.2),以便指导我们的汉字编码输入实践,设计和开发出更好的汉字编码输入法。

在图3.2中,M代表消息,C代表编码,S’代表编码的内码,M’代表消息的内码。与信息论中的通信系统模型相比,该图中的模型仅仅是多了一个反向信道,而其它部分都是相同的,相当于一个带反馈的通信系统。虽然模型中各部分的具体含义与典型的通信系统中的相应部分大不相同,但是信息论中的普遍结论仍然是成立的。

726877893042af2f2d255369b1a285cc.png

汉字编码输入系统的信源

在汉字编码输入系统这个特殊的通信系统中,充当信源的是输入人员,而不是一般的电子设备。输入人员是一种离散信源,他产生的消息序列就是待输入的文本。消息可以是单个的字符,也可以是字符的序列。消息中不仅包括汉字,还包括标点、符号、拼音等,不仅包括全角字符还可以包括半角字符。所有的这些符号一起构成了源字母表。在中文信息处理领域,该字母表通常被称为“信息交换用汉字编码字符集”。在不同的国家和地区,以及在不同的时期,这个字符集的大小和包含的具体字符是不同的。台湾在字符集方面有自己独立的BIG5工业标准。另外,日本、韩国也在使用汉字,也有各自的标准。在中国大陆,字符集的主要发展历程是由GB2312(6763个汉字)到GB13000(20902个汉字)再到GB18030(27533个汉字)

① 汉字编码输入系统信源的统计结构

在讨论语言文字信源的统计结构时,一般都不考虑标点符号。这里讨论汉字信源的统计结构也不考虑非汉字符号。源字母表中的字符可以是单字,也可以是词。汉字信源可以用一个马尔柯夫链(或称离散马尔柯夫过程)来描述。马尔柯夫链的阶可高可低,阶数越高对汉字信源的描述就越准确。在阶数相同时,以词为源字母表中的字符又比以单字为源字母表中的字符准确。但是,越准确的描述需要的运算量就越大。

对于一般汉字输入编码来说,只有单字的零阶熵和词的零阶熵实际意义最大。汉字的最大熵和极限熵也有很大的理论价值。另外两个比较重要的派生指标是汉字信源的相对熵和冗余度。下面我们就这些内容加以讨论。

d7a1d14f00415058052ec01271a3a41c.png

对于单字的零阶熵,由于出现概率越小的汉字对零阶熵的影响越小,且汉字的概率分布极均匀,所以如果以汉字出现概率的高低收录汉字的话,当字集的大小达到一定程度后,不论汉字数量如何增加,汉字的零阶熵都几乎不再变化。GB2312、GB13000、GB18030三者所收录汉字的数量是递增的,然而所增加的汉字都几乎是低频的汉字,因此GB2312中的汉字也就基本上决定了汉字的零阶熵,字符集的增大对其影响不大。目前学者们对现代汉字零阶熵计算的结果比较一致,大约为9.66比特。

对于单字的零阶熵,由于出现概率越小的汉字对零阶熵的影响越小,且汉字的概率分布极均匀,所以如果以汉字出现概率的高低收录汉字的话,当字集的大小达到一定程度后,不论汉字数量如何增加,汉字的零阶熵都几乎不再变化。GB2312、GB13000、GB18030三者所收录汉字的数量是递增的,然而所增加的汉字都几乎是低频的汉字,因此GB2312中的汉字也就基本上决定了汉字的零阶熵,字符集的增大对其影响不大。目前学者们对现代汉字零阶熵计算的结果比较一致,大约为9.66比特。

7407bb64256fff4e349a1507a8d998ff.png

对于词的零阶熵,情况和单字的零阶熵类似,只是计算的规模要大得多。目前,词的零阶熵结果大约是11.46比特/词。根据北京航空航天大学等单位承担的“七五”国家重点科技攻关项目“现代汉语词频统计”所得的结果(参见表3.1),词的平均长度为1.5字。这样,把词的零阶熵折合为汉字熵的结果为11.46/1.5=7.64。

819a502c68fdf563ab41309d59ed3170.png

② 输入方式对汉字信源熵率的影响

在“看打”时,输入者产生消息的速度肯定会受到其阅读速度的制约。另外,因输入者打字的熟练程度不同,他还需要不同程度地查看屏幕上提示的反馈信息,这种来回视线转移所造成的字词定位困难会进一步限制他产生消息的速度。越依赖屏幕提示的输入法对“看打”时产生消息的速度影响越大。比如“全拼”就比“五笔字型”对屏幕提示的依赖性大得多,除非能记住重码字词的位置,否则“看打”时效率非常低下。

在“听打”时,汉字信源熵率取决于口述者的说话速度和录入者的听话速度。如果前者超过后者,那么后者就成为速度瓶颈。如果前者慢于后者,那么前者就成为速度瓶颈。一般来讲,口授者是边思维边说话,因此口授者的说话速度又受其思维速度的限制。

在“想打”时,汉字信源熵率主要取决于录入者的思维速度。

无论是“听打”还是“想打”,录入者一般都是注视着插入光标进行操作的,因此在插入光标处或在插入光标附近提供适当的反馈信息可以帮助他减少记忆量,并且不会对信源熵率产生太大的影响。

③ 特定输入者对汉字信源统计结构的影响

上述汉字信源统计结构的结果都是以汉字使用者全体所产生的汉字文本为基础进行统计而得出来的。但是,不同的输入者有不同的知识背景和字词使用习惯。如果统计仅局限于某个输入者所产生的汉字文本,则不同的输入者将会成为具有不同统计结构的信源。为了适应个性化输入的需要,输入法软件应该能够可针对不同用户采用不同的优化编码。进一步,还可以在用户输入不同领域的内容时动态地提供不同的编码,使输入法更具利用特殊场景的能力。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/561129.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java中sql语句怎么把开始和结束时间作为参数写sql查询_JDBC数据库连接怎么操作?...

之前一直听说过JDBC,但从来不知道它是何物的小伙伴们看过来啦!一、概述JDBC(Java Data Base Connectivity,java数据库连接)是一种用于执行SQL语句的Java API,可以为多种关系数据库提供统一访问,它由一组用Java语言编写的类和接口组…

spring boot整合shiro继承redis_spring-boot-plus集成Shiro+JWT权限管理

SpringBootShiroJWT权限管理ShiroApache Shiro是一个强大且易用的Java安全框架,执行身份验证、授权、密码和会话管理。使用Shiro的易于理解的API,您可以快速、轻松地获得任何应用程序,从最小的移动应用程序到最大的网络和企业应用程序。三个核心组件:Subject, Secur…

java 整数变负数_一文帮你读懂Java整数的存储原理

前言大家应该都知道,整数包括负数,零,和正数。在Java中,基本类型中byte(8位)、short(16位)、int(32位)、long(64位)属于整数,并且没有无符号数,均是有符号的。对于计算机来说,它只认识二进制&am…

server2019 sqlcmd命令安装_Ubuntu20.04LTS安装MS sql-server2019的方法

在本文中,我将向您展示如何在Ubuntu 20.04 Focal Fossa上安装Microsoft SQL Server。小广告:喜欢网络技术的朋友可以加W信:xfiles_sky一起学习进步。步骤一:更新ubuntu源sudo apt update && sudo apt upgrade步骤二&#…

servlet里面为什么有时候覆_为什么新来的经理强烈推荐?前后端分离知识,学到了...

引言前后端分离这个词相信大家都听过,不知道大家是怎么理解的呢。前阵子看项目的时候,有一段实现硬是没看懂,下面来给大家说一下一段愚蠢的经历哈。(我没正正式式写过前端,所以如果文章有错的地方希望可以在评论区友善交流~)一、交…

microstation添加txt文件_C开发实战-文件操作

文件概述文件几乎无处不在,主要分为磁盘文件和设备文件,典型的磁盘文件有文本文件和二进制文件,磁盘文件存储在外部存储介质(例如磁盘,硬盘,U盘等等)需要加载到内存中才能使用。无论是文本文件还是二进制文件在计算机内…

怎样配置mysql数据源_mysql怎样配置ODBC数据源

选中 sqlserver选择默认连接的数据库 7、配置完成,可以测试连接 扩展资料: spring中配置数据源的几种常见方式:工具/原料 事先配置相应的环境mysql(mysql安装程序)mysql-connector-odbc-3.51.20-win32.exe(mysql数据源dobc安装程序) 步骤/方法…

python字符串用法_笔记:python字符串的使用

Python 没有表示单个字符的字符类型,只有字符串类型str。字符串是用单引号或双引号括起来的一系列字符。单引号表示的字符串中可以包含双引号字符,但不能直接包含单引号字符(否则无法知道字符串的开始和结尾分别在哪里)。同样,双引号表示的字…

new出来的对象怎么回收_JVM的内存模型及垃圾回收算法

1、什么是jvm:虚拟出来的计算机,是jre的一部分,使用jvm是为了支持与操作系统无关,实现跨平台,jvm内部体系结构主要分为三个部分:类加载器子系统,运行时数据区和执行引擎。2、jvm内存区域运行时数…

条令考试小程序辅助器_可以自己编题的答题软件,自定义题库考试出题工具,微信答题小程序...

自制题库自己编题的答题小程序要如何制作?今天给大家介绍下可以自己编题的答题软件,自制题库软件在微信小程序里自己出题,然后给别人来答题。每个人都可以通过这个小程序系统出考题,然后给到别人答题(自己、同事、学生…

编写有效用例电子版_软件测试人员必须编写代码吗?

相信每一个刚入门软件测试的小伙伴都会琢磨一个问题:软件测试人员,要不要写代码?其实这个问题同样困扰着已经在测试行业闯荡了几年的测试小司机们。那今天,我就来给大家分析一下~01各种软件测试角色一般而言软件测试大体可以分为两…

bert 中文 代码 谷歌_ELECTRA中文预训练模型开源,110个参数,性能媲美BERT

感谢参考原文-http://bjbsair.com/2020-03-27/tech-info/7050/ 在去年11月份,NLP大神Manning联合谷歌做的ELECTRA一经发布,迅速火爆整个NLP圈,其中ELECTRA-small模型参数量仅为 BERT-base模型的1/10,性能却依然能与BERT、RoBERTa等…

监督学习和无监督学习_机器学习的要素是什么? 有监督学习和无监督学习两大类...

如前所述,机器学习是AI的一个子集,通常分为两大类:有监督学习和无监督学习。监督学习教学AI系统的常用技术是通过使用大量带标签的示例来训练它们。这些机器学习系统被馈入大量数据,这些数据已被注释以突出显示感兴趣的功能。这些…

如何用python计算levenshteindistance_Levenshtein计算相似度距离

使用Levenshtein计算相似度距离,装下模块,调用下函数就好。拿idf还得自己去算权重,而且不一定准确度高,一般做idf还得做词性归一化,把动词形容词什么全部转成名词,很麻烦。Levenshtein.distance(str1,str2)…

欧姆龙变频器MX2参数_第442期丨【源程序】基于三菱西门子欧姆龙松下PLC实现喷水池控制系统;欧姆龙PLC编程软件更新步骤...

论坛周刊1 Dec 2019本期论坛周刊精彩内容:1、【源程序】基于三菱\西门子\欧姆龙\松下PLC实现喷水池控制系统2、欧姆龙PLC编程软件更新步骤3、RSLinx Classic EntherNet/IP配置4、这个运动控制算厉害么5、施耐德、ABB、西门子接连登门拜访往期精选▼第441期丨施耐德电…

linux两台服务器 同一个地址_【网工玩Linux】搭建开源多运营商(ISP)链路负载均衡器...

今天,主要想讲一下如何利用Linux内核功能,搭建与市面上十几万的商用产品(F5、RADWARE等)功能相同的多互联网线路负载均衡设备。负载均衡,相信各位是了解的。主要包括两大类,一类是应用负载均衡,…

python拦截修改数据包_会Python?那么你一定要试一试mitmproxy

mitmproxy 是一款工具,也可以说是 python 的一个包,使用这个工具可以在命令行上进行抓包(现在也可以在web页面上查看上抓的数据包了),还可以对所抓到的包进行脚本处理,非常有用。和 fiddler 或charles 等接口抓包工具相比&#xf…

java sha1_java使用SHA1加密算法详解

java使用SHA1加密算法程序源码://下面四个import放在类名前面 包名后面import java.io.UnsupportedEncodingException;import java.security.MessageDigest;import java.security.NoSuchAlgorithmException;import java.util.Arrays;public static String getSha1(S…

小程序 wxml selectable_微信小程序 抽象节点

抽象节点这个特性自小程序基础库版本 1.9.6 开始支持。在组件中使用抽象节点有时,自定义组件模板中的一些节点,其对应的自定义组件不是由自定义组件本身确定的,而是自定义组件的调用者确定的。这时可以把这个节点声明为“抽象节点”。例如&am…

queue double java_一文弄懂java中的Queue家族

java中Queue家族简介简介java中Collection集合有三大家族List,Set和Queue。当然Map也算是一种集合类,但Map并不继承Collection接口。List,Set在我们的工作中会经常使用,通常用来存储结果数据,而Queue由于它的特殊性&am…