贪婪算法在解决哈夫曼树及编码问题中的应用

哈夫曼编码,是一种可变字长编码(VLC)的高效算法。该算法是Huffman于1952年提出一种编码方法,该方法完全依据字符出现概率来构造异字头的平均长度最短的码字,有时称之为最佳编码。

相比定长编码来说,这种编码实现的压缩率(衡量压缩算法效率的重要指标)非常高,也就是说,哈夫曼编码比定长编码占用更少的存储空间。

假设我们要对某个字母表创建一套二进制前缀码,那么我们一般都会讲字母表中的字符与二进制的叶子联系起来,树中所有的左向边都为0,右向边都为1.可以通过记录根到字符叶子的简单路径上的标记来获得一个字符的代码字。这样任何一棵这样的树都可以生成一套前缀码。但是我们都知道即使在英文单词中,每个字母出现的概率都是不同的,如果仅仅是放到二叉树中,对于一些高频字符很可能需要更长的代码串来表示,这是非常不友好的。

一个方法就是通过根据字符出现的概率,尽可能将短位串分配给高频字符,长位串分配给低频字符。这里就用到了贪婪思想。

思路:

1. 初始化n个单节点的数,表上字母表中的字符,并将其概率记录,用来表示权重。

2. 找出两颗权重最小的树(对于权重都相同的树,任选其一),将它们作为新树中的左右子树,并将权值之和记录到新的树根中。迭代这一步操作,直到剩下一棵单独的树。

以下面的例子来描述哈夫曼树的构造过程:

字符ABCD_
出现概率0.350.10.20.20.15


由上面的过程我们得到了下面的代码字:

字符ABCD_
出现概率0.350.10.20.20.15
代码字111000001

101

Input:

5

A B C D _

35 10 20 20 15


Output:

A : 11

B : 100

C : 00

D : 01

_ : 101

完整代码如下:

import java.util.Scanner;
public class Main {//建立数的节点类static class Node{int weight;//频数int parent;int leftChild;int rightChild;public Node(int weight, int parent, int leftChild, int rightChild){this.weight = weight;this.parent = parent;this.leftChild = leftChild;this.rightChild = rightChild;}void setWeight(int weight){this.weight = weight;}void setParent(int parent){this.parent = parent;}void setLeftChild(int leftChild){this.leftChild = leftChild;}void setRightChild(int rightChild){this.rightChild = rightChild;}int getWeight(){return weight;}int getParent(){return parent;}int getLeftChild(){return leftChild;}int getRightChild(){return rightChild;}}//新建哈夫曼编码static class NodeCode {String character;String code;NodeCode(String character, String code) {this.character = character;this.code = code;}NodeCode(String code) {this.code = code;}void setCharacter(String character) {this.character = character;}void setCode(String code) {this.code = code;}String getCharacter() {return character;}String getCode() {return code;}}//初始化一个哈弗曼树public static void initHuffmanTree(Node[] huffmanTree, int m){for(int i = 0; i < m; i++){huffmanTree[i] = new Node(0, -1, -1, -1);}}//初始化编码public static void initHuffmanCode(NodeCode[] huffmanCode, int n){for(int i = 0; i < n; i++){huffmanCode[i] = new NodeCode("","");}}//获取huffmanCode的符号public static void getHuffmanCode(NodeCode[] huffmanCode, int n){Scanner input = new Scanner(System.in);for(int i = 0; i < n; i++){String temp = input.next();huffmanCode[i] = new NodeCode(temp,"");}}//获取频率public static void getHuffmanWeight(Node[] huffmanTree , int n){Scanner input = new Scanner(System.in);for(int i = 0; i < n;i ++){int temp = input.nextInt();huffmanTree[i] = new Node(temp, -1, -1, -1);}}//选取两个较小的结点public static int[] selectMin(Node[] huffmanTree ,int n) {int min[] = new int[2];class TempNode {int newWeight;//存储权int place;//存储该结点所在的位置TempNode(int newWeight, int place){this.newWeight = newWeight;this.place = place;}void setNewWeight(int newWeight){this.newWeight = newWeight;}void setPlace(int place){this.place = place;}int getNewWeight(){return newWeight;}int getPlace(){return place;}}TempNode[] tempTree = new TempNode[n];//将huffmanTree中没有双亲的结点存储到tempTree中int i=0,j=0;for(i = 0; i < n; i++) {if(huffmanTree[i].getParent() == -1 && huffmanTree[i].getWeight()!=0) {tempTree[j] = new TempNode(huffmanTree[i].getWeight(),i);j++;}}int m1,m2;m1 = m2 = 0;for(i = 0; i < j; i++) {if(tempTree[i].getNewWeight() < tempTree[m1].getNewWeight())//此处不让取到相等,是因为结点中有相同权值的时候,m1取最前的m1 = i;}for(i = 0; i < j; i++) {if(m1 == m2)m2++;//当m1在第一个位置的时候,m2向后移一位if(tempTree[i].getNewWeight() <= tempTree[m2].getNewWeight() && i != m1)//此处取到相等,是让在结点中有相同的权值的时候,//m2取最后的那个。m2 = i;}min[0] = tempTree[m1].getPlace();min[1] = tempTree[m2].getPlace();return min;}//创建哈弗曼树public static void createHaffmanTree(Node[] huffmanTree,int n){if(n <= 1)System.out.println("Parameter Error!");int m = 2 * n - 1;//initHuffmanTree(huffmanTree,m);for(int i = n; i < m; i++) {int[] min = selectMin(huffmanTree, i);int min1 = min[0];int min2 = min[1];huffmanTree[min1].setParent(i);huffmanTree[min2].setParent(i);huffmanTree[i].setLeftChild(min1);huffmanTree[i].setRightChild(min2);huffmanTree[i].setWeight(huffmanTree[min1].getWeight() + huffmanTree[min2].getWeight());}}//创建哈夫曼编码public static void createHaffmanCode(Node[] huffmanTree,NodeCode[] huffmanCode,int n){Scanner input = new Scanner(System.in);char[] code = new char[10];int start;int c;int parent;int temp;code[n-1] = '0';for(int i = 0; i < n; i++){StringBuffer stringBuffer = new StringBuffer();start = n-1;c = i;while((parent=huffmanTree[c].getParent()) >= 0){start--;code[start] = ((huffmanTree[parent].getLeftChild() == c) ? '0' : '1');c = parent;}for(;start < n-1; start++){stringBuffer.append(code[start]);}huffmanCode[i].setCode(stringBuffer.toString());}}//输出public static void ouputHaffmanCode(NodeCode[] huffmanCode,int n){for(int i = 0; i < n; i++){System.out.println(huffmanCode[i].getCharacter() + " : " + huffmanCode[i].getCode());}}//主函数public static void main(String[] args){Scanner input = new Scanner(System.in);int n;int m;n = input.nextInt();m = 2*n-1;Node[] huffmanTree = new Node[m];NodeCode[] huffmanCode = new NodeCode[n];//初始化initHuffmanTree(huffmanTree, m);initHuffmanCode(huffmanCode, n);//获取符号getHuffmanCode(huffmanCode, n);//获取概率getHuffmanWeight(huffmanTree, n);//创建哈夫曼树createHaffmanTree(huffmanTree, n);//创建哈夫曼编码createHaffmanCode(huffmanTree, huffmanCode, n);//输出ouputHaffmanCode(huffmanCode, n);}
}
注意:输出哈夫曼树和输出哈夫曼编码时不同的操作。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/569742.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

素数筛法求十亿内所有质数的和(C++)

埃拉托斯特尼筛法&#xff08;又称埃氏筛&#xff09;的基本思想是&#xff1a;要得到自然数n以内的全部素数&#xff0c;必须把不大于的所有素数的倍数剔除&#xff0c;剩下的就是素数。 时间复杂度O(nloglogn) #include <iostream> #include <math.h> using na…

spring事务的传播机制新解

以下是事物的传播机制&#xff1a; Transactional(propagationPropagation.REQUIRED)如果有事务, 那么加入事务, 没有的话新建一个(默认情况下)Transactional(propagationPropagation.NOT_SUPPORTED)容器不为这个方法开启事务Transactional(propagationPropagation.REQUIRES_NE…

时空权衡在模式匹配算法中的应用(JAVA)--Horspool算法(简化版BM算法)

模式匹配是数据结构中字符串的一种基本运算&#xff0c;给定一个子串&#xff0c;要求在某个字符串中找出与该子串相同的所有子串。假设P是给定的子串&#xff0c;T是待查找的字符串&#xff0c;要求从T中找出与P相同的所有子串&#xff0c;这个问题成为模式匹配问题。P称为模式…

从wireshake分析http和https的通信过程

参考文章: Wireshark基本介绍和学习TCP三次握手【技术流】Wireshark对HTTPS数据的解密Wireshark/HTTPSJourney to HTTP/2以TCP/IP协议为例&#xff0c;如何通过wireshark抓包分析&#xff1f;TCP三次握手和四次挥手Https详解wireshark抓包演示前言 面试被问到有没有用过抓包工具…

蓝桥杯第六届国赛JAVA真题----密文搜索

标题&#xff1a;密文搜索福尔摩斯从X星收到一份资料&#xff0c;全部是小写字母组成。 他的助手提供了另一份资料&#xff1a;许多长度为8的密码列表。 福尔摩斯发现&#xff0c;这些密码是被打乱后隐藏在先前那份资料中的。请你编写一个程序&#xff0c;从第一份资料中搜索可…

Java对象的序列化和反序列化

原文&#xff1a;https://www.cnblogs.com/xdp-gacl/p/3777987.html 一、序列化和反序列化的概念 把对象转换为字节序列的过程称为对象的序列化。  把字节序列恢复为对象的过程称为对象的反序列化。 对象的序列化主要有两种用途&#xff1a; 1&#xff09; 把对象的字节序列永…

蓝桥杯第六届国赛JAVA真题----奇怪的数列

标题&#xff1a;奇怪的数列从X星截获一份电码&#xff0c;是一些数字&#xff0c;如下&#xff1a; 13 1113 3113 132113 1113122113 .... YY博士经彻夜研究&#xff0c;发现了规律&#xff1a; 第一行的数字随便是什么&#xff0c;以后每一行都是对上一行“读出来” 比如第2行…

使用 docker 搭建 nginx+php-fpm 环境 (两个独立镜像)

获取 nginx 镜像docker search nginx docker pull nginx使用nginx镜像开启 nginx 应用容器docker run -d --name nginx -p 8080:80 -v /tmp:/usr/share/nginx/html docker.io/nginx 说明 -d 后台运行--name 自定义容器名称-p 8080:80 宿主机的8080 映射到容器的80端口-v 宿主机…

蓝桥杯第六届国赛JAVA真题----表格计算

标题&#xff1a;表格计算某次无聊中&#xff0c; atm 发现了一个很老的程序。这个程序的功能类似于 Excel &#xff0c;它对一个表格进行操作。 不妨设表格有 n 行&#xff0c;每行有 m 个格子。 每个格子的内容可以是一个正整数&#xff0c;也可以是一个公式。 公式包括三种&…

安装oracle 11g时,报启动服务出现错误,找不到OracleMTSRecoveryService的解决方法

1、打开注册表看看&#xff1a;HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Services下&#xff0c;找到OracleMTSRecoveryService及OracleRemExecService&#xff0c;查看ImagePath对应路径。 2、修改ImagePath路径为xxxxxxx\dbhome_1\bin\xxxxxxxxx即可【修改为你本地真实路…

蓝桥杯第六届国赛JAVA真题----切开字符串

标题&#xff1a;切开字符串Pear有一个字符串&#xff0c;不过他希望把它切成两段。 这是一个长度为N&#xff08;<10^5&#xff09;的字符串。 Pear希望选择一个位置&#xff0c;把字符串不重复不遗漏地切成两段&#xff0c;长度分别是t和N-t&#xff08;这两段都必须非空&…

全选和反选

$(function(){ // 全选 $("#全选框的ID").click(function () {$("input[name其他的复选框的name]").prop("checked", this.checked);}); // 反选选$("#反选选框的ID").click(function () {$("input[name其他的复选框的name]"…

django系列5.1--ORM对数据库的操作

Django--—ORM数据库操作(图书管理系统基本实例) 一.基本知识 MVC模式&#xff08;Model–view–controller&#xff09;是软件工程中的一种软件架构模式&#xff0c;把软件系统分为三个基本部分&#xff1a;模型&#xff08;Model&#xff09;、视图&#xff08;View&#xff…

蓝桥杯第七届省赛JAVA真题----压缩变换

压缩变换小明最近在研究压缩算法。 他知道&#xff0c;压缩的时候如果能够使得数值很小&#xff0c;就能通过熵编码得到较高的压缩比。 然而&#xff0c;要使数值很小是一个挑战。 最近&#xff0c;小明需要压缩一些正整数的序列&#xff0c;这些序列的特点是&#xff0c;后面出…

蓝桥杯第七届决赛JAVA真题----路径之谜

路径之谜小明冒充X星球的骑士&#xff0c;进入了一个奇怪的城堡。 城堡里边什么都没有&#xff0c;只有方形石头铺成的地面。 假设城堡地面是 n x n 个方格。【如图1.png】所示。按习俗&#xff0c;骑士要从西北角走到东南角。 可以横向或纵向移动&#xff0c;但不能斜着走&…

蓝桥杯第七届决赛JAVA真题----广场舞

广场舞LQ市的市民广场是一个多边形&#xff0c;广场上铺满了大理石的地板砖。 地板砖铺得方方正正&#xff0c;就像坐标轴纸一样。 以某四块砖相接的点为原点&#xff0c;地板砖的两条边为两个正方向&#xff0c;一块砖的边长为横纵坐标的单位长度&#xff0c;则所有横纵坐标都…

oracle的关键字

oracle使用管理员执行下面命令&#xff0c;就能获得oracle的关键字&#xff1a; select * from v$reserved_words order by keyword asc; 以下是oracle 11.2.0.1.0中执行的结果&#xff08;供参考&#xff09;&#xff1a; 转载于:https://www.cnblogs.com/zhaoqian49/p/104490…

建设网站

一、选择服务器 二、购买域名和备案 三、部署网站 四、解析域名转载于:https://www.cnblogs.com/start20180703/p/10449587.html

蓝桥杯第八届省赛JAVA真题----Excel地址

标题&#xff1a; Excel地址 Excel单元格的地址表示很有趣&#xff0c;它使用字母来表示列号。 比如&#xff0c; A表示第1列&#xff0c; B表示第2列&#xff0c; Z表示第26列&#xff0c; AA表示第27列&#xff0c; AB表示第28列&#xff0c; BA表示第53列&#xff0c; .... …

nginx location反向代理不对等时的处理

server{ server_name git.cheyunhua.top; location /test12/ { proxy_pass https://www.baidu.com/;}} location ^~ /oa/ { proxy_pass http://localhost:8998/; } 比如访问git.cheyunhua.top/test12 反向代理到http://www.baidu.com&#xff0c;需要在location以及pas…