哈夫曼树(最优二叉树)

1 用途

现在假如有一个需求, 把一个很长的字符串用二进制编码的形式存储, 要尽可能的占用较小空间, 那么应该怎么存储呢. 肯定是要确定每个字母的编码方法, 比如 001是A, 010是B等. 那么要怎么确定每个字符编成什么二进制码从而使得总长度最短? 一个根本思想是, 出现频率高的字母尽量编码短一些, 出现频率少的字符长一些. 这样就需要有一种方法去确定每个字符的二进制编码的方法, 需要构建一棵树 --- 哈夫曼树.

2 方法

举个例子, 现有一个字符串, 其中所有字符出现频率如下:

A: 60, B: 45, C: 13 D: 69 E: 14 F: 5 G:3

1. 把字符频率表按照频率从大到小排序

排序如下:

D: 69, A: 60, B: 45, E: 14, C: 13, F: 5, G:3

2. 把当前字符频率表的最后两个取出, 作为兄弟节点构建成二叉树, 其规则为: 频率小在左, 二者父节点为二者频率之和

取出目前频率最小的两个节点: F和G, 如图所示:

3. 把二者作为一个元素重新放入频率表(频率表还是要按照频率排序)

此时为:

D: 69, A: 60, B: 45, E: 14, C: 13, FG:8

4. 重复23步, 直至所有构建哈夫曼树完成

此时最后两个元素为C: 13和FG: 8, FG在左, C在右:

更新频率表:

D: 69, A: 60, B: 45, CFG:21, E: 14

选择E和CFG构建:

更新频率表:

D: 69, A: 60, B: 45, CFGE: 35

选择B和CFGE构建:

更新频率表:

BCFGE: 80, D: 69, A: 60

选择D和A构建:

更新频率表:

DA: 129, BCFGE: 80

选择DA, BCFGE构建, 完成:

把所有边按照左0右1进行标注:

将每个字符, 按照从根节点到其的所有边的码连接起来, 就是每个字符的编码. 对应如下:

A: 10

B: 01

C: 0011

D: 11

E: 000

F: 00101

G: 00100

这样, 利用哈夫曼树来进行字符串编码就完成了.

那么, 为什么能够保证一大长串的二进制码解析出来的是唯一的呢, 首先思考, 什么情况会导致我们解析现有编码会有多种选项呢? 假如当前正在解析二位码01, 此时已经有对应的字母了, 但是发现011或者010还可以解析成另一个字符, 这样就会有多种解码方法, 但是会发现, 哈夫曼树额每个字符都在叶节点上, 也就是说01如果对应了字符, 就不会存在010或者011也为字符的情况, 从而消除了多重解码的困惑.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/505361.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

visual studio无法更新_VS Code Python 扩展 5 月更新

(给Python编程开发加星标,提升编程技能.)12 号,微软在官方博客发布了 VS Code 编辑器中 Python 扩展的 5 月更新,其中只有一个较为重要的特性:新增了浏览选择 Python 解释器的能力。增加这个功能,主要是为了让选择或变…

至强cpu型号列表_装机必看——CPU型号参数详解

装机必看——CPU型号参数详解——装机个人练习生-海在初步解了电脑构成后,我们DIY装机首先要看的就是如何选CPU,今天就带大家详细学习CPU的各类数据。说到CPU,我们先来介绍下生产CPU的两大公司——Intel和AMD。这两家公司相爱相杀接近50年了&…

多路平衡查找树 --- B(B-)树

1 简介 可以用阶数来描述B树, 一棵M阶B树代表着该B树最多有M个孩子节点. 如果M为2, 那么该B树就是一棵二叉搜索树. 一棵M阶B树具有以下性质: 1. 每个节点最多有M - 1个关键字. 跟普通的树不同, B树的关键字有多个. 2. 根节点最少可以只有一个关键字. 3. 非根节点至少有k个关…

B+树操作方式

1 简介 B树与B树相似, 也存在不同. 可以理解为把所有元素都放在叶子节点, 索引B树化的树. B树的一些性质: 1. B树的节点分类: 内部节点(索引节点), 叶子节点. 如果只有根节点有元素, 那么其可以是内部节点也可以是叶子节点. 2. B树与B树最大的不同是内部节点不保存数据, 只…

java执行查询postgresql得到中文乱码_比这个夏天还要热的PostgreSQL数据库来啦!

什么是PostgreSQL?云数据库 PostgreSQL 是京东云基于开源的 PostgreSQL 10.6 版本构建的一款功能强大的企业级关系型数据库管理系统。PostgreSQL有“世界上可获得的最先进的开源数据库”之称,在过去20年的飞速发展中,该数据库已经广泛应用在G…

python按列读取txt文件_如何使用pandas读取txt文件中指定的列(有无标题)

最近在倒腾一个txt文件,因为文件太大,所以给切割成了好几个小的文件,只有第一个文件有标题,从第二个开始就没有标题了。 我的需求是取出指定的列的数据,踩了些坑给研究出来了。 import pandas as pd # 我们的需求是 取…

jpa多表关联查询_Spring Boot 整合mybatis如何自定义 mapper 实现多表关联查询

上一篇文章已经介绍了自定义 mapper 实现自定义的方法,其实实现了通过自定义的mapper就可以做多表关联等复杂查询。但是很多朋友还是反馈说没有实现多表关联查询,所以,今天把文章又重新修改了,增加了多表关联的实现步骤。Mybatis …

spark on yarn 完全分布式_「大数据」(七十一)Spark之架构介绍

【导读:数据是二十一世纪的石油,蕴含巨大价值,这是情报通大数据技术系列第[71]篇文章,欢迎阅读和收藏】1 基本概念Spark 架构采用了分布式计算中的 Master-Slave 模型。 Master 是对应集群中的含有 Master 进程的节点,…

计算机网络数据链路层 --- 停止等待协议

停止等待协议的意义 除了比特出差错,底层信道还会出现丢包问题。为了实现流量控制。 停止等待协议的前提 虽然现在常用全双工通信方式,但为了讨论问题方便,仅考虑一方发送数据(发送方),一方接收数据&…

python import如何使用_python之import引用

关于python的import引用的最大关键是init.py文件的作用,这个文件对于import的方法使用至关重要。这个是我在搭建自动化框架过程中用到的import的方法使用。 比如说,我现在login.py想引用bottom底下的log.py的时候,这个时候,我们如…

计算机网络数据链路层 --- 后退n帧协议(GBN)

滑动窗口 发送窗口 发送方维持一组连续的允许发送的帧的序号 接收窗口 接收方维持一组连续的允许接收帧的序号 发送过程 如图,假如发送方的发送窗口大小是6,首先发送0号帧,并建立0号帧的副本,防止帧丢失,然后发送…

简要描述内部连接和外部连接之间的区别_创新性的M12推拉式连接器推拉标准—跨制造商自动化技术的里程碑...

“八家知名制造商 – 菲尼克斯,浩亭,莫仕,穆尔电子,宾德,康耐,艾查和魏德米勒因建立M12推拉式连接器的推拉锁紧机制而在市场上确立了地位。我们共同追求一个目标,即确保各个制造商之间的兼容性。…

计算机网络数据链路层 --- 选择重传协议(SR)

引言 GBN协议的弊端 累计确认,从而导致某一帧错误后会批量重传。 可行的解决方案 可以只重传出错的帧,设置单个确认,同时加大接收窗口,设置接收缓存,缓存乱序到达的帧。这也就是选择重传协议SR。 SR中的滑动窗口 …

requests 返回的cookies为空_爬虫学习(2)(requests库)

POST请求import requestsdata {name: cxc, age: 18} r requests.post("http://httpbin.org/post", datadata) print(r.text)POST请求这样就成功地获得了返回结果,form部分就是提交的数据,证明POST请求成功发送了。响应之前我们使用了text和c…

计算机网络 --- 数据链路层介质访问控制

引言 传输数据使用的两种链路: 点对点链路:两个相邻的节点通过一个链路相连,没有第三者。应用:PPP协议,常用于广域网。广播式链路:所有主机共享通信介质。应用:早期的总线以太网,无…

6-7 使用函数输出水仙花数_学习C语言居然对printf函数不理解???

对于C语言的printf函数,可以说是我们学习C语言第一个接触到的函数了。printf命令的作用是格式化输出函数,一般用于向标准输出设备按规定格式输出信息。printf()函数的调用格式为:printf("", )。printf()是C语言标准库函数&#xff…

matplotlib 子图超过4个_Matplotlib从入门到精通

Matplotlib从入门到精通​mp.weixin.qq.comMatplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包。它提供了一整套和 matlab 相似的命令 API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入 GUI 应用程序…

c++求n的几次方_14.八年级数学:若a+b+c=1,怎么求 a+b+c的值?分式培优拓展

欢迎您来到方老师数学课堂,请点击上方蓝色字体,关注方老师数学课堂。所有的视频内容,全部免费,请大家放心关注,放心订阅。八年级数学:若abc1,怎么求 abc的值?分式培优拓展。这道题&a…

计算机网络 --- 数据链路层CSMA/CD协议

CSMA/CD协议 全称为载波监听多点接入/碰撞检测CSMA/CD(carrier sense multiple access with collision detection) CSMA/CD协议 - CS: CS指的是载波侦听/监听,每一个站点再发送数据之前以及发送数据时都要检测一下总线上是否有其他计算机在…

map insert异常失败_处理dubbo反序列化失败的坑

前言今天下午,当我经过一个小时的奋”键“疾”码“,准备好好的审查一下(摸鱼)自己写的代码,经过一段时间审查(摸的差不多了,该下班了),得出一个结论我写的代码很优雅、精简。所以大手一挥提交代码,并在 API…