数据压缩(2)——变长编码

【定长编码】

变长和定长是很基本的概念,不光是在数据压缩,在其他很多地方都可以见到,这里就不多说了。

前文说过,在数据压缩时,我们需要用某些字符A替换或修改某些字符B,字符A占用的存储空间更小一些。

以数据集TOBEORNOT 为例,共出现T O B E R N六个字符,若是ASCII编码,需要8x9共72个二进制位。

在定长编码中,需要3个二进制(能区8种情况),即码字长度为3,需要3x9 = 27个二进制位,优化幅度很大。

描述不同的3位二进制对应什么字符的叫码字表,编码时将码字表写入,再一次写入每个字符的编码。读取时,先读取码字表,码字表和字符之前很好区分;字符之间可以通过固定长度区分。

可以发现,ASCII编码实际就是定长编码,给英文字母、数字、常见符号编码,用了8个二进制位。

你可以推测,我们一般用ASCII编码或其他文本编码方式保存的文本文件一定存在类似码字表的东西。

我们给的数据集的例子很小,实际上数据集中的字符个数(即长度)成千上万很正常。随着长度越来越长,出现的不同字符就会越来越多。

如果ASCII表上的大部分字符都出现过了,那么定长编码的压缩方式就很差,需要采用变长编码。

【变长编码】

变长编码(VLC,variable-length codes)会给出现频率高的字符更短的码字,这样编码后数据集的整体长度就降低。

其核心在于需要通过一套规则,给不同字符合适的码字,以确保频率高的字符有更短的码字,并使得不同码字可以互相区分。

难点在于如何从一个01的stream中区分码字,定长编码每次读取固定长度就行,变长编码不清楚每次需要读取的长度。

一种常见的思路是给定每次需要读取的长度。这种方式在数据压缩中行不通,因为长度的存储本身也要占用一定空间。

也即,不能通过太多额外的信息去确定,需要通过从stream本身已经读取或即将读取的二进制位做区分。

对数据集进行变长编码的步骤是:

  1. 遍历数据集中的所有字符并计算每个字符出现的频率
  2. 根据频率给不同字符分配码字,并建立码字表
  3. 再次遍历数据集根据码字表压缩数据集

VLC算法主要是关于如何生成码字的,各种各样的算法很多,需要用的时候查论文即可。但VLC不是目前主流的压缩算法,只在特定的少数场景下才会使用。

【Varint编码】

ProtoBuf中的Varint是VLC适应计算机的拓展算法,可以看到VLC的码字不按字节或字对齐,每次只读取一个二进制位,解码性能很差。

其被用来编码整数,编码时会在一个字节(=8bit)的最高位设置(MSB)为1来区分字符,如果当前读取的字节的最高位为1,那么表示需要继续读取下一位,剩下的7位用来表示该数的二进制补码。

例如,整数10可表示为 0000 1010, 整数300的二进制为1 0010 1100,补码是其自身,需要两个字节,先从低到高取7位再加上MSB为 1010 1100,另外要给编码的字节为0000 0010,合起来为300的编码1010 1100 0000 0010

正常情况下一个int类型要4个字节,而采用这种方式,对于小一些的整数,一个字节就够了,稍微大些的整数,两个字节也没问题。更大的整数会导致超出4个字节。

而在使用PB的大部分场景中,int类型整数都不会太大。

更进一步来看,所有字符都是01组合表示的,都可以当作整数来看待,都可以使用Varint编码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52548.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【力扣】划分为k个相等的子集

🔥博客主页: 我要成为C领域大神🎥系列专栏:【C核心编程】 【计算机网络】 【Linux编程】 【操作系统】 ❤️感谢大家点赞👍收藏⭐评论✍️ 本博客致力于知识分享,与更多的人进行学习交流 给定一个整数数组 …

超越基础:Visual Basic在科学计算与数据分析的革新应用

标题:超越基础:Visual Basic在科学计算与数据分析的革新应用 Visual Basic(VB),最初以其易于学习和使用而闻名,常被视为入门级编程语言。然而,VB的潜力远不止于简单的应用程序开发。在科学计算…

WHAT - 综合书单推荐

拥有一个成功的人生,书籍确实是一个重要的知识来源。可以将书籍分为几个主要类别,每个类别对应不同的知识领域和成长方向。以下是一些建议的分类及每类书籍推荐: 1. 个人发展与心理学 《如何赢得朋友与影响他人》 - 戴尔卡耐基《思考&#…

【qt】锁

线程安全问题. 多线程程序太复杂了. 加锁 把多个线程要访问的公共资源,通过锁保护起来.>把并发执行变成串行执行. Linux mutex 互斥量. C11引入std::mutex Qt 同样也提供了对应的锁,来针对系统提供的锁进行封装.QMutex 多个线程进行加锁的对象&…

example-apisix-1 清空日志之后启动异常处理

异常信息 2024/08/27 11:34:33 [emerg] 1#1: bind() to unix:/usr/local/apisix/conf/config_listen.sock failed (98: Address already in use) nginx: [emerg] bind() to unix:/usr/local/apisix/conf/config_listen.sock failed (98: Address already in use) 2024/08/27 1…

【生日视频制作】室内告白表白祝福布置霓虹灯AE模板修改文字软件生成器教程特效素材【AE模板】

室内告白表白祝福布置霓虹灯生日视频制作教程AE模板改字生成器 怎么如何做的【生日视频制作】室内告白表白祝福布置霓虹灯AE模板修改文字软件生成器教程特效素材【AE模板】 生日视频制作步骤: 安装AE软件下载AE模板把AE模板导入AE软件修改图片或文字渲染出视频

【Go - 每日一小问: 对未初始化的的 chan 进行读写,会怎么样?为什么?】

对未初始化的 chan 进行读写会有不同的行为: 1. 对未初始化的 chan 进行读取 读取操作: 对未初始化的 chan 进行读取操作会导致永久阻塞(deadlock),因为没有任何 goroutine 可以向这个 chan 发送数据。读取操作会一直…

Signac R|如何合并多个 Seurat 对象 (1)

引言 在本文中演示了如何合并包含单细胞染色质数据的多个 Seurat 对象。为了进行演示,将使用 10x Genomics 提供的四个 scATAC-seq PBMC 数据集: 500-cell PBMC 1k-cell PBMC 5k-cell PBMC 10k-cell PBMC 实战 在整合多个单细胞染色质数据集的过程中&…

SAP与生产制造MPM系统集成案例

一、需求介绍 某公司为保证企业内部生产管理系统的多项基础数据的同步更新,确保各模块间信息的一致性和准确性,对后续的生产计划和物料管理打下基础,该公司将MPM系统和SAP系统经过SAP PO中间件集成平台进行了集成。MPM全称为Manufacturing…

超实用的8个无版权、免费、高清图片素材网站整理

不管是设计、文章配图,还是视频制作,图片都至关重要。但是图片版权一直都是困扰很多设计、自媒体以及企业的大问题。现在,因为图片侵权被告的案例已经是司空见惯了,有的公众号甚至因为图片版权问题遭受致命打击。 1. Pexels Pexe…

Spring Boot 全局异常@ControllerAdvice和@RestControllerAdvice的区别

在Spring Boot中,ControllerAdvice和RestControllerAdvice都可以用于实现全局异常处理,但它们在处理方式和返回值类型上略有不同。至于为什么在某些情况下可能更偏向于使用RestControllerAdvice而不是ControllerAdvice,这主要取决于你的应用类…

前后端传参@RequestParam使用上的一个小坑

RequestParam(value "art") String art 默认情况下,value "art"表示前端传入参数的名字叫art,如果前端不传的话会报错 RequestParam(value "art" required false) String art 当equired false 时表示前端可以不传这个…

Spring框架:开发者的得力伙伴,魅力何在?

目录 一. Spring介绍 二. Spring搭建 三. Spring Bean管理 ▐ 管理方式 ▐ 依赖注入 四. Spring数据访问层管理 五. Spring集成MyBatis 海漫浩浩,我亦苦作舟!大家一起学习,一起进步! 一. Spring介绍 Spring是什么? Spring 是一个轻量级的, IOC 和 AOP 的一站式 J…

2024年最新Java面试宝典系列-Collections集合篇1

Java中的集合类有哪些?它们的特点是什么 List:有序集合,允许重复元素,实现类如ArrayList、LinkedList。Set:无序集合,不允许重复元素,实现类如HashSet、TreeSet。Map:键值对集合&am…

阿里云服务器 篇七:服务器热备份/定时备份

文章目录 系列文章bypy其他备选项目安装bypy使用bypy命令帮助绑定百度账号查看网盘空间大小和账号信息显示在百度网盘中的根目录在百度网盘中创建备份目录百度网盘中的其他文件操作命令从本地目录同步到百度网盘中在云服务器设置定时同步创建云端备份目录为sudo命令做准备创建同…

如何使用ssm实现基于java web的计算机office课程平台设计与实现+vue

TOC ssm277基于java web的计算机office课程平台设计与实现vue 绪论 1.1 研究背景 现在大家正处于互联网加的时代,这个时代它就是一个信息内容无比丰富,信息处理与管理变得越加高效的网络化的时代,这个时代让大家的生活不仅变得更加地便利…

博弈论(Nim游戏的扩展)

公平组合游戏ICG 若一个游戏满足: 1.由两名玩家交替行动; 2.在游戏进程的任意时刻,可以执行的合法行动与轮到哪名玩家无关; 3.不能行动的玩家判负; 则称该游戏为一个公平组合游戏。 NIM博弈属于公平组合游戏,但城建的棋类游戏,比如围棋&…

大刀阔斧改革之后,阅文距离“东方迪士尼”更近了吗?

当前,网文IP的确是“富矿”。中国社会科学院文学研究所发布的《2023中国网络文学发展研究报告》显示,截至2023年底,网络文学IP市场规模2605亿元,同比增长近百亿元。 近日,网文产业中的头部企业阅文集团也披露数据称&a…

虚拟内存和linux(操作系统part1)

一个操作系统的虚拟内存和linux部分知识点的笔记整理,资料大多参考于:小林coding和Javaguide。 虚拟内存的作用 第一,虚拟内存可以使得进程运行内存超过物理内存大小,因为程序运行符合局部性原理,CPU 访问内存会有很…

【iOS安全】iPhone8 iOS14.4.2 越狱教程

环境配置 iPhone 8: 固件版本 iOS 14.4.2 (18D70) 产品类型 iPhone10,1 (A1906) 销售型号 MQ862J/A MacBook Pro: macOS 10.15.7 装有CheckRa1n beta 0.12.4 概述 尝试了几个版本的unc0ver和Taurine,发现都不好使 unc0ver显示unsupported…