普通树与二叉树的相互转化及哈夫曼树的了解

普通树与二叉树的相互转化及哈夫曼树的了解

二叉树与普通树的转化

二叉树的种种特性使得它更便于处理,如果能将普通树转化成二叉树就好了。

普通树 -> 二叉树

回忆孩子兄弟表示法,有第一孩子域(左孩子),还有左孩子的兄弟域。孩子表示法表示的树很容易转化成二叉树,所以只需把树先转为孩子兄弟表示法的样子,再调整层次结构就可以得到二叉树。

  • 加线。在所有兄弟结点之间加一条线。
  • 去线。只保留父结点与第一个孩子(左孩子)的连线,与其他孩子的连线删掉。
  • 调整层次,结点的左孩子依然为左孩子,左孩子的兄弟全变成了结点右孩子。

toBi.PNG

森林也可以转化成二叉树,所谓森林就是树的集合

  • 把森林的每一棵树转成二叉树
  • 以某一棵树作为起始树,下一棵树的根结点作为右孩子连接到上一课树的根结点。直到处理完最后一棵树。

senlintoBi.PNG

二叉树 -> 普通树

  • 加线。如果某个结点存在左孩子,则将左孩子的右结点,其右结点的右孩子...也就是一直深入到没有右孩子,将这些结点与父结点连线。
  • 去线。删除所有结点与其右孩子的连线。
  • 调整结构,让原本某结点的右孩子与该结点处于一个水平线,则他们成为了兄弟。

bito.PNG

二叉树也能变成森林。

从根结点开始,如果存在右孩子,断开与右孩子的连线。接着处理上分离后的二叉树的根结点,如果存在右孩子,断开连线....如此反复,直到某结点无右孩子。然后将得到的若干二叉树转为普通树。

bitosenlin.PNG

哈夫曼树与哈夫曼编码

哈夫曼编码用在数据压缩领域。我们先来看哈夫曼树。

哈夫曼树的构造

树中一个结点到另一个结点之间的分支构成了路径,路径上分支的数目称为路径长度。树的路径长度就是:根结点到每一个结点的路径长度之和。再把一棵二叉树的叶子结点带上权值,定义结点的带权路径长度为:根结点到叶子结点的路径长度 * 叶子结点的权值。那么树的带权路径长度为所有叶子结点的带权路径长度之和。

比如有结点数为n的二叉树,有m个叶子结点。权值分别是w1, w2, w3...根结点到它们的路径长度分别是m1, m2, m3...则m1*w1 + m2*w2 + m3*w3 +...+ mm*wm就是这棵树的带权路径长度。

haffuman_haffuman.PNG

比如二叉树a,结点A的路径长度为1,结点D的路径长度为4...于是该树的带权路径长度就是:5*1 + 15*2 +40*3 +30*4 + 10*4 = 315

二叉树b的带权路径长度为:40*2 + 5*3 + 15*3 +30*2 + 10*2 = 220

由于n个结点的二叉树有多种可能的形态,叶子结点的个数、结点的路径长度都各不相同,这些树的带权路径长度有的很大有的很小。我们的目的是要找出使树的带权路径长度最小的二叉树,这样的二叉树称为哈夫曼树。哈夫曼树的形态也不唯一(比如某棵哈夫曼树作镜面对称),但是这些树带权路径长度一定是唯一值。

haffuman_haffuman2.PNG

上图就是一棵哈夫曼树,它的带权路径长度为40*1 + 30*2 + 15*3 + 5*4 + 10*4 = 205,比前面两种情况的值都小。那么这棵树是怎么来的呢?幸好有简单的构造方法。

  • 先将带权的叶子结点按照权值从小到大排序,以上图为例子就是{A: 5, E: 10, B: 15, D: 30, C: 40}
  • 取出前两个结点,新增一个N1结点作为这两个结点的父结点,权值小的作为N1的左孩子,权值稍大的作为右孩子,并将N1的权值为设置为这两个结点的权值之和,如图N1的权值为A和E的权值之和15。
  • 已取出的叶子结点从序列中删除,并将新增的N1结点插入到序列中合适的位置,保持序列有序。然后重复上一步骤。直到所有叶子的结点的都已被取出,至此就完成了哈夫曼树的构造。(完成的图就是上图那样)

haffuman_3.PNG

哈夫曼编码

试想将一段字符通过网络传输给别人,如BADCADFEED,由于其中只有ABCDEF六个字母,用三位的二进制数就可以完全表示。每个字母被编码成以下表格所示。

字母ABCDEF
二进制编码000001010011100101

这样上面的BADCADFEED编码后就是001000011010000011101100100011,长度是30。对方接收到这一长串再根据上表,每三位代表一个字母,解码出真正的序列。

现在我们尝试用哈夫曼编码对这段数据进行压缩。假如我们有一段字符要进行传输,这段字符中共出现6个字母,每个字母出现的频率是{A: 27, B: 8, C: 15, D: 15, E: 30, F: 5}。根据上面介绍的哈夫曼树的构造,可以得到下面的左图。

4.PNG

现在将结点到左孩子的路径权值改为0,到右孩子的权值改为1,从根结点到叶子结点所经过的路径组成的0、1序列就是该字符的编码。举比如字符D被编码为00,可以列出每个字符的编码序列。

字母ABCDEF
二进制编码01100110100111000

可以看出二进制位数参差不齐了,频率高的二进制位数少,频率低的所需位数就多。BADCADFEED现在被编码成了1001010010101001000111100,长度是25。比上面少了5个字符,这说明我们可以用更少的数据量传输内容,却不丢失语意。我们确实成功压缩了数据。

对方接收到这一长串,再根据上表解码出真正的序列。不过在解码的时候,由于表中的编码各个字符的二进制位数不是固定,有的3位数、有的4位数....如果某个编码序列是另外一个编码序列的前缀,在解码的时候我们就不能确定这到底是哪个字符。所以在编码的时候一定要避免这样的情况发生,编码方案需要满足:任意字符的编码都不是其他任意字符编码的前缀,这种编码称为前缀编码。


by @sunhaiyu

2017.9.14

转载于:https://www.cnblogs.com/sun-haiyu/p/7521466.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/415868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

软件测试管理之困惑

软件测试管理 最近研究技术的时间少一些,一直在看关于软件测试管理之类的文档,然后整理公司的一些流程。 公司和大多数中国的软件公司一样,有许多的地方不规范,毕竟咱也不是外包,没有规范的流程与管理,呵…

UUID工具类及使用

1.工具类: package UUIdtest;import java.util.UUID;public class UUIDUtil {public static String getUUID() {return UUID.randomUUID().toString();}} 2.使用 package UUIdtest;import org.junit.Test;public class TestUUID {Testpublic void test3(){System.out.println(U…

什么是ARP

ARP是地址转换协议(Address Resolution Protocol)的英文缩写,它是一个链路层协议,工作在OSI模型的第二层,在本层和硬件接口间进行联系,同时对上层(网络层)提供服务。 二层的以太…

项目管理工具strber

1.Streber背景介绍: Streber是一个基于WEB的在线项目协调工具,它融合了wiki的思想和项目协作管理机制,成为了一个适用于小型团队的可以贯穿真个项目生命周期的项目协作和管理工具。 Streber的出现的历史并不长,作者为德国人&…

外星人Alienware Area-51 R2原厂Win10预装系统

大三角外星人Area 15 R2原装出厂WINDOWS10系统 链接:https://pan.baidu.com/s/1JwDuHx1j7fRABtIpLmKW_g?pwdq4pd 提取码:q4pd 原厂系统自带所有驱动、外星人出厂主题壁纸、专属LOGO标志、Office办公软件、MyAlienware、外星人控制中心等预装程序 文…

Net基础篇_学习笔记_第十二天_面向对象继承(字符串_字符串的不可变性)

字符串的特点之一: 字符串的不可变性 1)、字符串的不可变性当你给一个字符串重新赋值之后,老值并没有销毁,而是重新开辟一块空间存储新值。 当程序结束后,GC扫描整个内存,如果发现有的空间没有被指向,则立即…

oracle 创建新库时报错:enterprise manager 配置失败

oracle新建库时遇到的问题总结 昨天新建库时按正常的操作,一路下来,当新建到85%时弹出错误如下图: 环境:2003 server 64bit  服务器(IBM) oracle 10G 64bit 原有二个…

iview form 表单 自定义参数验证 validate

需求,使用的是iview框架的Form组件,一般简单input类型数据,使用简单的验证配置就可以达到效果。如官方的写法。 iview 表单验证 地址 https://www.iviewui.com/components/form iview 默认验证库 async-validator 地址 https://github.com/y…

小程序 地图 开发 组件 覆盖物

我的需求是 1、显示地图 2、在地图上增加覆盖物 3、地图距离底部边距有90rpx 主要使用到原生组件map和cover-view 实现效果&#xff1a; 代码我是使用的mpvue开发。源码如下&#xff1a; <template><div class"map-clock"><map id"map"…

uoj#246. 【UER #7】套路(dp+分块?分类讨论?)

题目链接 分析&#xff1a; 目前为止我只能理解dp部分 我就喜欢这种单纯不做作的题目 一看名字就明白了这道题的本质 中二的题目描述 很显然&#xff0c;我们的关键就是求出最小相似度 朴素算法n^4 如果我们现在有一个权值数组 显然&#xff0c;每一个数只可能与最邻近ta的…