无损压缩——Huffman编码

最近项目中涉及到人脸关键点中神经网络的压缩,采用了性能较好的哈夫曼编码进行。

源码地址:https://github.com/believeszw/HuffmanCompress

1 引言

 哈夫曼(Huffman)编码算法是基于二叉树构建编码压缩结构的,它是数据压缩中经典的一种算法。算法根据文本字符出现的频率,重新对字符进行编码。因为为了缩短编码的长度,我们自然希望频率越高的词,编码越短,这样最终才能最大化压缩存储文本数据的空间。 
  假设现在我们要对下面这句歌词“we will we will r u”进行压缩。我们可以想象,如果是使用ASCII码对这句话编码结果则为:119 101 32 119 105 108 108 32 119 101 32 119 105 108 108 32 114 32 117(十进制表示)。我们可以看出需要19个字节,也就是至少需要152位的内存空间去存储这些数据。 
  很显然直接ASCII码编码是很浪费空间的,Unicode就更不用说了,下面我们先来统计一下这句话中每个字符出现的频率。如下表,按频率高低已排序:


2 哈夫曼二叉树构建

2.1 初始队列

  那么我们按出现频率高低将其放入一个优先级队列中,从左到右依次为频率逐渐增加。

下面我们需要将这个队列转换成哈夫曼二叉树,哈夫曼二叉树是一颗带权重的二叉树,权重是由队列中每个字符出现的次数所决定的。并且哈夫曼二叉树始终保证权重越大的字符出现在越高的地方。

2.2 第一步合并

       首先我们从左到右进行合并,依次构建二叉树。第一步取前两个字符u和r来构造初始二叉树,第一个字符作为左节点,第二个元素作为右节点,然后两个元素相加作为新空元素,并且两者权重相加作为新元素的权重。

 同理,新元素可以和字符i再合并,如下:

2.3 重新调整队列

上图新元素权重相加后结果是变大了,需要对权重进行重新排序。

然后再依次从左到右合并,每合并一次则进行一次队列重新排序调整。如下:

经过多步操作之后,得到以下的哈夫曼二叉树结构,也就是一个带有权重的二叉树:

2.4 哈夫曼编码

有了上面带权重的二叉树之后,我们就可以进行编码了。我们把二叉树分支中左边的支路编码为0,右边分支表示为1,如下图:

这样依次遍历这颗二叉树就可以获取得到所有字符的编码了。例如:‘ ’的编码为10,‘l’的编码为00,‘u’的编码为11100等等。经过这个编码设置之后我们可以发现,出现频率越高的字符越会在上层,这样它的编码越短;出现频率越低的字符越会在下层,编码越短。经过这样的设计,最终整个文本存储空间才会最大化的缩减。 
  最终我们可以得到下面这张编码表:

2.5 字符串编码


  有了上面的编码表之后,”we will we will r u”这句重新进行编码就可以得到很大的压缩,编码表示为:01 110 10 01 1111 00 00 10 01 110 10 01 1111 00 00 10 11101 10 11100。这样最终我们只需50位内存,比原ASCII码表示节约了2/3空间,效果还是很理想的。当然现实中不是简单这样表示的,还需要考虑很多问题。

3 补充


  我们需要弄明白哈夫曼二叉树概念,它是带权路径达到最小的二叉树,也叫最优二叉树。它不一定是完全二叉树,也不一定是平衡二叉树,它们描述的完全不是一件事情,完全没有概念上的重叠关系。
 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/448131.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

26条安全开车经验 开车20年老司机分享

总有些人,觉得自己开车技术比舒马赫牛叉,市区高速漂移无比潇洒。也总有些人,觉得路是自家的铺的,爱怎么开就怎么开,爱停哪就停哪,哪个不服打开车窗就是一句国骂一个中指。其实他们都没有意识到,…

解决:Request header field Content-Type is not allowed by Access-Control-Allow-Headers

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 1. 前端 vue 工程 post 请求后端接口,报错: Request header field Content-Type is not allowed by Access-Con…

书写README的各种markdown语法

README 该文件用来测试和展示书写README的各种markdown语法。GitHub的markdown语法在标准的markdown语法基础上做了扩充,称之为GitHub Flavored Markdown。简称GFM,GFM在GitHub上有广泛应用,除了README文件外,issues和wiki均支持…

Apache2.4配置ssl

1》验站 如下截图,验站就是在DNS域名商哪里,在对应host下面,添加一个TXT记录类型,主机记录,记录值后,检测即可。   2》SSL证书申请 阿里云,腾讯云有很多免费证书申请,免费的缺点是…

助你解决新手开车四大问题 为您支招

新手开车起步技巧涉及方方面面,对于新手来说,如何首次将车独自开上路且不发生任何意外是众多人热切盼望的理想方式。但是新手上路难免会磕磕碰碰,发生小摩擦都是在所难免的,那么如何在起步阶段就将发生事故的概率降到最低呢?在此…

VUE - get 、post 请求后端接口:get 、post 写法 (Axios 中文说明文档地址)

前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到教程。 Axios 中文使用说明文档地址:Axiox 中文说明文档 我只是记录下写法,两种请求都能正常运行: 1. 安装…

C++11新特性——移动语义,右值引用

移动语义 有一些类的资源是__不可共享__的,这种类型的对象可以被移动但不能被拷贝,如:IO 或 unique_ptr 库容器、string 和 shared_ptr 支持拷贝和移动,IO 和 unique_ptr 则只能移动不能拷贝。。 右值引用 右值引用是必须绑定到…

离合器半联动点的判断和技巧 为您支招

现在将离合器半联动的使用方法揭密如下:将离合器抬到车开始动时你就别再抬了,你如果感觉到车有些快了,可再往下踩些,你如果感觉到车有些慢了,可再往起抬些,这样可将车速控制在你想要的速度范围之内。 ● 坡…

客户端调用 WCF 的几种方式

转载网络代码.版权归原作者所有.....客户端调用&#xff37;&#xff23;&#xff26;的几种常用的方式&#xff1a;&#xff11;普通调用var factory new DataContent.ServiceReference1.CustomerServiceClient();factory.Open();List<DataContent.ServiceReference1.Cust…

VUE:组件间相互跳转、页面带参跳转

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 只是记录下用法&#xff1a; 从 A 页面跳转到 B 页面。 如下写法&#xff1a; A 页面跳转方式&#xff1a; 代码&#xff1a; getdat…

Protocol Buffer 序列化

Protobuf使用 目录 proto3的更新定义协议格式编译protobufprotobuf_API 枚举和嵌套类标准消息方法解析和序列化 写一条消息阅读消息编译Protobuf扩展优化高级用法 proto3的更新 在第一行非空白非注释行&#xff0c;必须写&#xff1a; syntax "proto3";字段规…

如何调整反光镜和座椅的位置 为您支招

【太平洋汽车网 学车频道】首先要进行座椅的高度调整&#xff0c;上下调整座椅让头部离车顶至少还有一拳的距离。如果座椅调得太高&#xff0c;车辆在颠簸时头部容易碰到车顶&#xff0c;调得太矮了又会影响视线。然后是前后距离的调整&#xff0c;当脚踩住制动踏板至最深处时…

关于hexo与github使用过程中的问题与笔记

快速阅读 如何用github 和hexo 创建一个blog 1.github中要新建一个与用户名同一样的仓库&#xff0c; 如:homehe.github.io - 必须是io后缀。一个帐户 只能建立一个2. 绑定域名 &#xff0c; A记录指向ip, cname记录指向homehe.github.io 3. 配置sshkey - 个人设置 -> SSH a…

CSS 中 的 margin、border、padding 区别 (内边距、外边距)

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 图解CSS padding、margin、border属性 W3C组织建议把所有网页上的对像都放在一个盒(box)中&#xff0c;设计师可以通过创建定义来控制这…

CMake 常用的预定义变量

CMake 常用的预定义变量 PROJECT_NAME : 通过 project() 指定项目名称 PROJECT_SOURCE_DIR : 工程的根目录 PROJECT_BINARY_DIR : 执行 cmake 命令的目录 CMAKE_CURRENT_SOURCE_DIR : 当前 CMakeList.txt 文件所在的目录 CMAKE_CURRENT_BINARY_DIR : 编译目录&#xff0c;…

什么是转向灯?使用转向灯有何技巧?

什么是转向灯&#xff1f;如何使用转向灯&#xff1f;新手司机对车辆还不是很熟悉&#xff0c;如何正确使用转向灯&#xff0c;尤其是在不同路段中该怎么正确使用转向灯&#xff0c;成为了很多新手们的困扰之一&#xff0c;今天我们就来为大家解决这个问题吧&#xff01; 转向灯…

基于Flask开发企业级REST API应用(一)

关于我 编程界的一名小小程序猿&#xff0c;目前在一个创业团队任team lead&#xff0c;技术栈涉及Android、Python、Java和Go&#xff0c;这个也是我们团队的主要技术栈。 Github&#xff1a;github.com/hylinux1024 微信公众号&#xff1a;angrycode 前面对Python WEB框架Fla…

解决:Do not use built-in or reserved HTML elements as component id: form

前些天发现了一个巨牛的人工智能学习网站&#xff0c;通俗易懂&#xff0c;风趣幽默&#xff0c;忍不住分享一下给大家。点击跳转到教程。 1. vue 新写了个组件&#xff0c;运行工程成功&#xff0c;但界面没有出效果&#xff0c;F12 提示有一个警告&#xff1a; Do not use …

移动语义,右值引用

移动语义 目录 右值引用变量是左值move库函数移动构造函数和移动赋值移动操作库容器和异常移动赋值操作符移动后的对象必须是可以析构的合成移动操作右值移动左值拷贝右值在无法被移动时进行拷贝拷贝和交换赋值操作与移动移动迭代器右值引用和成员函数右值与左值引用的成员函…

集合练习:登录注册功能

需求&#xff1a; 1、登录账号唯一&#xff0c;在注册时验证输入的账号是否可用&#xff0c;若已存在&#xff0c;则不可用&#xff0c;若不存在则可用2、登录时使用账号密码进行验证1 /**2 * author Administrator3 * 登录信息 4 */5 public class UserLogin {6 …