哈夫曼树你需要了解一下

    • 哈夫曼树介绍
    • 哈夫曼数特点
    • 哈夫曼应用场景
    • 哈夫曼构建过程
    • 哈夫曼树示例
    • 拓展

哈夫曼树介绍

哈夫曼树(Huffman Tree)是一种特殊的二叉树,也被称为最优二叉树。在计算机科学中,它是由权值作为叶子节点构造出来的一种二叉树。哈夫曼树的特点是,对于给定的n个权值,构造出的哈夫曼树具有最小的带权路径长度(WPL)。

具体来说,哈夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码。这个变长编码表是通过评估来源符号出现机率的方法得到的。出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码。这样,编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

在构建哈夫曼树时,通常规定生成的哈夫曼树中每个结点的左子树根结点的权小于等于右子树根结点的权。对于给定的n个权值,构造出的哈夫曼树有n个叶子结点。

哈夫曼树是由哈夫曼在1951年提出的。当时,他在麻省理工学院(MIT)攻读博士学位,并和修读信息论课程的同学面临选择完成学期报告或期末考试。他的导师罗伯特·法诺出的学期报告题目是:查找最有效的二进制编码。

哈夫曼在研究这个问题的过程中,发现无法证明哪个已有编码是最有效的,因此他转向新的探索,最终发现了基于有序频率二叉树编码的想法,并很快证明了这个方法是最有效的。哈夫曼使用自底向上的方法构建二叉树,避免了次优算法香农-范诺编码(Shannon–Fano coding)的最大弊端──自顶向下构建树。

因为构造这种树的算法是最早由哈夫曼于1952年提出的,所以被称之为哈夫曼树。哈夫曼树是带权路径长度WPL最小的二叉树,它是一种最优二叉树。

在这里插入图片描述

哈夫曼数特点

哈夫曼树的主要特点包括:

  1. 带权路径和最小:哈夫曼树是带权路径和中权值最小的树,也被称为最优二叉树。这意味着在所有可能的二叉树中,哈夫曼树能够使得树的带权路径长度最小。
  2. 不存在度为1的节点:哈夫曼树中不存在度为1的节点,即所有节点都有至少两个子节点。
  3. 总结点数:对于n个叶子节点的哈夫曼树,总共有2n-1个节点。
  4. 权值越小的节点到根节点的路径越长:在哈夫曼树中,权值越小的节点离根节点越远,路径也就越长。
  5. 最优二叉树个数不唯一:由于构建过程中并未严格区分左右子树,所以最优二叉树个数并不唯一。
    除了上述提到的特点外,哈夫曼树还有其他一些特点:
  6. 二叉树:哈夫曼树是一种二叉树,具有二叉树的特性,例如每个节点最多只有两个子节点,且子节点分为左子树和右子树。
  7. 有序树:哈夫曼树是一种有序树,左子树和右子树是有顺序的,次序不能任意颠倒。这也意味着即使某个节点只有一个子节点,也需要区分它是左子树还是右子树。
  8. 构建过程:哈夫曼树的构建过程通常采用优先队列的方式,将权值最小的两个节点合并为一个新的节点,然后将新节点的权值加入到优先队列中。这个过程会不断重复,直到优先队列中只剩下一个节点为止。
  9. 动态构建:哈夫曼树也可以动态构建,即每次只处理一部分数据,然后根据处理结果动态地构建哈夫曼树。这种构建方式可以更加灵活地处理数据,并且可以实时地更新哈夫曼树。
  10. 应用广泛:哈夫曼树被广泛应用于各种领域,例如数据压缩、编码解码、序列比对、机器学习、图像处理和声音处理等。

在这里插入图片描述

哈夫曼应用场景

哈夫曼树是一种广泛使用的数据结构,主要用于构建最优编码,在许多领域都有应用。

1. 数据压缩 :哈夫曼编码是一种无损数据压缩方法,通过使用较短的编码来表示常见的符号,从而减少数据的大小。它被广泛应用于图像、音频和视频等数据的压缩。
2. 编码解码 :哈夫曼树可以用于构建最优编码,将信息转换为二进制形式,并可以在接收端使用相同的哈夫曼树解码恢复原始信息。这种编码解码技术被广泛应用于通信和网络传输领域。
3. 序列比对 :在生物信息学中,哈夫曼树被用于DNA序列的比对和相似度计算。通过构建基因序列的哈夫曼树,可以比较不同基因序列之间的相似性和差异。
4. 机器学习 :哈夫曼树也被用于机器学习算法中,例如决策树和聚类算法。通过构建特征的哈夫曼树,可以优化特征选择和分类器的构建。
5. 图像处理 :哈夫曼树可以用于图像的压缩和编码,以及图像特征提取和分类。
6. 声音处理 :哈夫曼树可以用于声音的压缩和编码,以及语音识别和合成。
7. 优化技术 :哈夫曼树是一种优化技术,可以用于解决各种优化问题,例如最短路径问题、最小生成树问题等。

哈夫曼树在许多领域都有广泛的应用,是一种非常实用的数据结构和算法。

在这里插入图片描述

哈夫曼构建过程

哈夫曼树的构建过程如下:

  1. 准备阶段:给定N个权值作为N个叶子结点,构造一棵二叉树,该树的带权路径长度达到最小,称这样的二叉树为最优二叉树,也称为哈夫曼树(Huffman Tree)。
  2. 创建阶段:给定n个权值,构造出的哈夫曼树有n个叶子结点。 n个权值分别设为 w1、w2、…、wn,则哈夫曼树的构造规则为:
  • a. 将w1、w2、…,wn看成是有n棵树的森林(每棵树仅有一个结点);

  • b. 在森林中选出两个根结点的权值最小的树合并,作为一棵新树的左、右子树,且新树的根结点权值为其左、右子树根结点权值之和;

  • c. 从森林中删除选取的两棵树,并将新树加入森林;

  • d. 重复b、c步,直到森林中只剩一棵树为止,该树即为所求得的哈夫曼树。

在这里插入图片描述

哈夫曼树示例

以下是使用Java实现哈夫曼树的示例代码:

import java.util.*;class Node {int weight;Node left, right;Node(int weight) {this.weight = weight;left = right = null;}
}class HuffmanTree {private static final int R = 2; // 哈夫曼树中每个节点的左子树和右子树的数量private Node root; // 根节点// 构建哈夫曼树public void build(int[] weights) {int[] queue = new int[weights.length]; // 存储节点的索引for (int i = 0; i < weights.length; i++) {queue[i] = i + 1; // 将节点的索引加入队列}PriorityQueue<Node> pq = new PriorityQueue<>(R); // 使用优先队列存储节点for (int i = 0; i < weights.length; i++) {Node node = new Node(weights[i]); // 创建新节点pq.offer(node); // 将节点加入优先队列if (pq.size() > R) { // 如果优先队列中的元素数量超过R,则合并两个最小节点Node min1 = pq.poll(); // 取出最小节点1Node min2 = pq.poll(); // 取出最小节点2Node parent = new Node(min1.weight + min2.weight); // 创建父节点parent.left = min1; // 设置左子树parent.right = min2; // 设置右子树pq.offer(parent); // 将父节点加入优先队列}if (i == weights.length - 1) { // 如果遍历完所有节点,则根节点为当前队列中最大的节点root = pq.poll();}}}
}

优先队列在构建哈夫曼树时的作用是维护和调整节点的优先级。优先队列中的节点按照其权值的大小进行排序,权值最小的节点位于队列的前端。每次从队列中取出权值最小的两个节点,将它们合并为一个新的节点,新的节点的权值等于这两个节点的权值之和。然后将新的节点重新插入到优先队列中。这个过程不断重复,直到优先队列中只剩下一个节点,这个节点就是构建出的哈夫曼树的根节点。
通过使用优先队列,我们可以高效地找到权值最小的两个节点,并快速地合并它们。这是因为在优先队列中,权值最小的节点始终位于队列的前端,我们可以直接取出这两个节点进行合并。这极大地简化了构建哈夫曼树的过程,并提高了效率。

在这里插入图片描述

拓展

AVL树你需要了解一下

红黑树你需要了解一下

满二叉树你需要了解一下

完全二叉树你需要了解一下

在这里插入图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/161048.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

05 取样器(BeanShell和JSR223 Sampler)

一、取样器作用 1、取样器可以理解为Jmeter的桥梁&#xff0c;或者是Jmeter的加工厂&#xff1b; 2、Jmeter使用过程中&#xff0c;经常有些数据不能直接使用&#xff0c;需要加工后才能使用&#xff1b;这样就用到了取样器&#xff1b;但是这里存在问题&#xff0c;Jmeter中的…

Differences between package.json and pnpm-lock.yaml

1.pnpm-lock.yaml 是pnpm包管理工具生成的确保依赖包的版本在所有的环境里面都相同对依赖包的任何操作都会更新在该文件中&#xff0c;因此&#xff0c;需要确保提交到代码仓库中。包含了解析的依赖项和版本号。如下图&#xff1a; 2.package.json 列出应用所需的依赖和元数…

【黑马甄选离线数仓day01_项目介绍与环境准备】

1. 行业背景 1.1 电商发展历史 电商1.0: 初创阶段20世纪90年代&#xff0c;电商行业刚刚兴起&#xff0c;主要以B2C模式为主&#xff0c;如亚马逊、eBay等 ​ 电商2.0: 发展阶段21世纪初&#xff0c;电商行业进入了快速发展阶段&#xff0c;出现了淘宝、京东等大型电商平台&a…

(swjtu西南交大)数据库实验(数据库需求分析):音乐软件数据管理系统

实验内容&#xff1a; 数据库需求分析&#xff1a;各用户组需求描述&#xff0c;绘出数据流图&#xff08;详细案例参见教材p333~p337&#xff0c;陶宏才&#xff0c;数据库原理及设计&#xff0c;第三版&#xff09;&#xff1b; 一、选题背景 近年来&#xff0c;“听歌”逐…

Ajax入门-Express框架介绍和基本使用

电脑实在忒垃圾了&#xff0c;出现问题耗费了至少一刻钟time&#xff0c;然后才搞出来正常的效果&#xff1b; 效果镇楼 另外重新安装了VScode软件&#xff0c;原来的老是报错&#xff0c;bug。。&#xff1b; 2个必要的安装命令&#xff1b; 然后建立必要的文件夹和文件&…

新能源车将突破2000万辆,汉威科技为电池安全保驾护航

近年来&#xff0c;我国新能源汽车销量持续突破新高。据中汽协数据&#xff0c;1~10月&#xff0c;国内新能源汽车销量达728万辆&#xff0c;同比增长37.8%&#xff0c;市场占有率达到30.4%。随着第四季度车市传统旺季的到来&#xff0c;新能源消费需求将进一步释放&#xff0c…

Python小灰灰

系列文章 序号文章目录直达链接表白系列1浪漫520表白代码https://want595.blog.csdn.net/article/details/1306668812满屏表白代码https://want595.blog.csdn.net/article/details/1297945183跳动的爱心https://want595.blog.csdn.net/article/details/1295031234漂浮爱心htt…

【软件工程师从0到1】- 封装 (知识汇总)

前言 介绍&#xff1a;大家好啊&#xff0c;我是hitzaki辰。 社区&#xff1a;&#xff08;完全免费、欢迎加入&#xff09;日常打卡、学习交流、资源共享的知识星球。 自媒体&#xff1a;我会在b站/抖音更新视频讲解 或 一些纯技术外的分享&#xff0c;账号同名&#xff1a;hi…

Jenkins扩展篇-流水线脚本语法

JenkinsFile可以通过两种语法来声明流水线结构&#xff0c;一种是声明式语法&#xff0c;另一种是脚本式语法。 脚本式语法以Groovy语言为基础&#xff0c;语法结构同Groovy相同。 由于Groovy学习不适合所有初学者&#xff0c;所以Jenkins团队为编写Jenkins流水线提供一种更简…

DataFunSummit:2023年OLAP引擎架构峰会-核心PPT资料下载

一、峰会简介 OLAP技术是当前大数据领域的热门方向&#xff0c;该领域在各个行业都有广泛的使用场景&#xff0c;对OLAP引擎的功能有丰富多样的需求。同时&#xff0c;在性能、稳定性和成本方面&#xff0c;也有诸多挑战。目前&#xff0c;OLAP技术没有形成统一的事实标准&…

redis性能管理

redis的数据库是存放在内存当中&#xff0c;所以对内存的监控至关重要 redis内存监控和解析 1.如何查看redis内存使用情况 [rootlocalhost utils]# redis-cli -h 20.0.0.170 -p 6379 20.0.0.170:6379> info memory used_memory:853336 //redis中数据占用的内存 use…

触发设备离线

业务场景 业务开发过程中&#xff0c;我们经常会需要判断远程终端是否在线&#xff0c;当终端离线的时候我们需要发送消息告知相应的系统&#xff0c; 环形队列 1.创建一个index从0到30的环形队列&#xff08;本质是个数组&#xff09; 2.环上每一个slot是一个Set&#xf…

MYSQL索引使用注意事项

索引使用注意事项&#xff1a; 1.索引列运算 不要在索引列上进行运算操作&#xff0c;否则索引将失效&#xff1b; 2.字符串不加引号 字符串类型使用时&#xff0c;不加引号&#xff0c;否则索引将失效&#xff1b; 3.模糊查询 如果仅仅是尾部模糊匹配&#xff0c;索引将不会失…

关于软raid的实现及常见问题

RAID概念 磁盘阵列&#xff08;Redundant Arrays of Independent Disks&#xff0c;RAID&#xff09;&#xff0c;有“独立磁盘构成的具有冗余能力的阵列”之意。 磁盘阵列是由很多价格较便宜的磁盘&#xff0c;以硬件&#xff08;RAID卡&#xff09;或软件&#xff08;MDADM&…

关于用css设置input输入框hover的时候的样式以及当input为disabled的时候,不要让hover样式生效

效果如果&#xff1a; 编辑状态下的时候&#xff1a; 只读状态下的时候&#xff1a; 代码如图&#xff1a; <input type"text" name"dataForm.exportCode" id"exportCodeItem" required :disabled"editDisabled" />input:not(…

【前端学java】语法练习-工具类的封装(13)

往期回顾&#xff1a; 【前端学java】JAVA开发的依赖安装与环境配置 &#xff08;0&#xff09;【前端学 java】java的基础语法&#xff08;1&#xff09;【前端学java】JAVA中的packge与import&#xff08;2&#xff09;【前端学java】面向对象编程基础-类的使用 &#xff08…

java.net.UnknownHostException: eureka

java.net.UnknownHostException: eureka 哦。HOST漏了 #linux /etc/hosts #windows C:\Windows\System32\drivers\etc\hosts 127.0.0.1 eureka7000 127.0.0.1 eureka7001 127.0.0.1 eureka7002

maven打包可执行jar含依赖lib

修改pom.xml <build><plugins><plugin><groupId>org.springframework.boot</groupId><artifactId>spring-boot-maven-plugin</artifactId><!-- jdk8可用&#xff0c;其他jdk版本可能需改插件版本 --><version>2.3.7.RE…

sql调优

慢查询 SQL 治理方案 一、SQL 性能下降的原因 在对 SQL 进行分析之前&#xff0c;需要明确可能导致 SQL 执行性能下降的原因进行分析&#xff0c;执行性能下降可以体现在很多方面&#xff1a; 查询语句写的烂索引没加好表数据过大数据库连接数不够查询的数据量过大被其他慢s…