Managing Gigabytes--文本压缩

开门见山,文本压缩可以归纳为两大类, 符号方法和字典方法, 下面分别介绍下:


1)符号方法,symbolwise method
普通编码方式是每个字符都采用相同位数编码, 比如asc码, 每个字符都是8位编码。
那么现在要压缩,就是要用更少的位数来表示字符。显而易见, 我们只须用较小的位数来表示高概率字符, 用较长的位数来表示低概率字符,这样平均下来就可以实现压缩。


那么这里面就有两个点:
a)怎么来确定每个待编码字符的概率,这就是概率模型问题。
所谓概率模型就是为编码器提供的概率分布函数,我们必须保证编码器,和解码器使用相同的模型, 不然解出来的就不对了。
那么对于一个符号的编码位数是有个下限的, 和这个符合的信息量I(s)相关。
I(s)= -logPr[s] (Pr[s]就是s符合出现的概率)
所以对于”掷硬币面向上“这个事实,至少要用-log(1/2)=1位来编码。
那么对于字母表中每个符合的平均信息量称为”概率分布的熵(entropy)“, H = sum(Pr[s]*I[s])
假定符合以假设的概率值独立出现,H为压缩下限。即这是个理论极值,实际上不可能达到。
这也就是Claude Shannon著名的编码原理。

回到模型,可分为每个字符都当独立的符号来处理的0阶模型和仅考虑有限个前驱符号的m阶有限上下文模型。
也可分为静态模型, 半静态模型, 和自适应模型。
静态模型就是不考虑正在编码的文本,只使用固定的模型,这个模型就适用于文本模式相对固定的任务。
半静态模型就先为要压缩的文件生成模型, 发送给解压方, 这个方法需要遍历两遍被压缩的文档, 所以这个solution明显不太好。
所以比较流行的是自适应模型,adaptive modeling,即以平缓的概率模型开始, 随着遇到的符号变多, 不断的调整。
自适应模型往往要解决零频问题,这个问题解决方法很多, 最简单的是默认每个字符在刚开始时已出现过一次。
这种模型的缺点是不能对文本进行随机访问, 必须从文本的开头开始解码,因为我们必须保证编码和解码时的context是相同的。

对于怎么建立符号概率模型, 也是有很多研究, 比如部分匹配模型(Prediction by Partial Matching, PPM)依据以前的字符做出预测, 动态马尔可夫模型基于有限状态机。
这些模型就不详细描述了, 有兴趣可以参看相关文献。

b)知道待编码字符的概率,怎么给它分配合适的编码, 这就是编码算法的问题。

哈夫曼编码
介绍编码算法当然先来看看哈夫曼编码, 这个号称是作者在研究生时为了避免参加科目考试而想出的算法,很简单也很高效。再一次对美国的教育环境表示深深的敬意和向往。
这类算法基本想法就是给高概率字符分配较少位数的编码。
这就有个问题, 如果每个字符的编码位数不一样, 那么我们怎么知道后一个字符的编码位数,肯定不能用个len去指定。
哈夫曼的方法是解决编码前缀的歧义性(ambiguity), 即前缀编码,就是说每个编码的前缀都是不同的
那么怎么去产生编码和怎么去解码呢?
哈夫曼树,通过哈夫曼树,从下到上进行编码, 从上到下进行解码。具体怎么构建哈夫曼树, 就不具体说了, 很简单。
再一次感叹此算法构思的巧妙和简单。
对于静态的概率分布, 哈夫曼算法是很好的, 但对于自适应模型,哈夫曼算法会耗费较多的内存或时间。
因为自适应模型在同一时间会使用许多不同的概率分布,依赖于被编码文本的上下文的不同。那么这样就要同时建立多颗哈夫曼树。

 

算术编码

那么对于自适应模型而言算术编码更受欢迎。
算术编码相对比较复杂,不过显著的优势是算术编码可以用低于一位的编码来表示高概率字符, 而哈夫曼编码对于每个字符至少要用一位来编码。
由于算术编码包含了各种不同的概率分布, 所以比较适合自适应模型。
但对于静态模型,还是哈夫曼编码要快许多。

算术编码的基本思想就是, 在编码过程中, 随着各个字符的出现不断缩小概率区间, 高概率字符不会大幅地缩短区间,而低概率字符会导致产生一个小的多的‘下一个’区间。
算术编码只有当编码完成时,才会一次性输出编码,编码值就是在最终的概率区间内任意选取一个值,区间越小,表示这个值所用的位数越多。
不好理解,就举个例子:
对于只有3个字符的字符集a,b,c, 对bccb进行编码
为解决零频问题, 开始假设a,b,c个出现过一次
编码前概率区间为[0,1],此时abc的概率都是1/3,所以abc各占概率区间的1/3, 如b的概率区间为[0.33, 0,66]
开始编码......
第一个字符b,所以概率区间缩短为[0.33, 0,66]
此时a:b:c的比例为1:2:1,所以各个字符的概率区间变为a = [0.333,0.416], b = [0.416, 0.583], c = [0.583, 0.666]
第二个字符c,所以概率区间缩短为[0.583, 0.666]
此时a:b:c的比例为1:2:2,所以各个字符的概率区间变为a = [0.583,0.600], b = [0.600, 0.633], c = [0.633, 0.666]
第三个字符c,所以概率区间缩短为[0.633, 0.666]
此时a:b:c的比例为1:2:3,。。。。。。
最终概率区间缩小至[0.639, 0.650]
所以0.64就可以作为bccb的编码。

而解码的过程就是照着编码的过程重做一遍即可,
解码前概率区间为[0,1],此时abc的概率都是1/3,所以abc各占概率区间的1/3, 如b的概率区间为[0.33, 0,66]
所以0.64落在了b的概率区间内, 第一个字符为b
概率区间缩短为[0.33, 0,66], 此时a:b:c的比例为1:2:1,所以各个字符的概率区间变为a = [0.333,0.416], b = [0.416, 0.583], c = [0.583, 0.666]
所以0.64落在了c的概率区间内, 第二个字符为c
。。。。。。最终完成解码。

区间中的数需要的多少位来表示和区间长度的负对数成正比。而最终的区间长度是已编码符合概率值的乘积(显而易见)。
而log(AB)= log(A)+log(B), 所以最终的区间长度的对数就等于所有已编码符号单独概率值的对数的和。所以具有概率Pr[s]的符号s对输出编码的贡献是-logPr[s], 与符号信息量相同。
所以算术编码的输出位数接近最优。


2)字典方法,dictionary method
字典模式很好理解, 用字典里面的码字来替换原文,如果这个码字比原文的位数少,那么就实现了压缩, 如果你的字典是独有的, 不公开的, 那么就实现了加密。
那么为了实现压缩, 就要基于词或短语进行编码, 基于字符压缩效果肯定不好, 那么如果这个字典是静态的,因为各个领域的词和短语都不一样的, 所以不可能适用于所有文本。
也有半静态的,就是每次对要压缩的文本生成一个字典,这个方法肯定也不好。
所以就有自适应的字典方案(adaptive dictionary scheme), 这个就有技术含量了怎么产生自适应的字典了。
当然牛人是很多的,Ziv和Lempel发明了LZ77和LZ88两种方法。
牛人想出来的方法都是很简单,很好用的, 这个也不例外,基本原理就是文本的子串被指向其以前出现之处的指针所替换。
说白了,就是字典码书就是文本本身, 码字就是指针。个人感觉,在发明这个方法时, 作者可能并没有想到什么基于字典模式的方法,应该是后面的学者把它归到这类了。
我们就以LZ77来了解下这个方法,
LZ77的输出码是一系列三元组,(a,b,c), a表示往前回溯多远, b表示短语多长, c表示要输入的下一个字符。
为什么要有c项,是为没有出现过的字符准备的, 这个设计照顾了新字符引进的需要。
以abaabab为例,输出码为:
(0,0,a) (0,0,b) (2,1,a) (3,2,b)
这个方法需要在之前的文本中找到最大匹配窗口, 这个不能线性查找, 一般采用散列表, 或二分查找树来实现。

著名的Gzip就是这个算法的一个变体,
Gzip用hash table来定位之前出现的字符串, 用3个连续的字符作为hash键值,链表中记录了这三个字符在窗口中出现的位置信息。
出于效率的考虑,限制了链表的长度, 其实也没有必要记录过远的位置, 记较近的几个位置比较合理。
Gzip比较有意思的是,对指针的偏移值也做了哈夫曼编码,较常用的值用较少的编码。同时对字符串匹配长度值, 也采用哈夫曼编码。
当之前没有发现匹配的时候, 传递一个原始字符(raw character),有意思的是这个原始字符和字符串匹配长度值公用同一个编码。
也就是说第二项有可能是个字符串匹配长度值, 也有可能是个原始字符,反正前缀编码, 也不冲突, 用心良苦都是为了压缩。



转载于:https://www.cnblogs.com/fxjwind/archive/2011/07/04/2097718.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/298257.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Linux学习笔记 1 环境变量 2 vi命令

1 环境变量篇 1.1 修改 查看 生效 系统环境变量 1 涉及系统环境变量的文件 --> .bash_profile --> /etc/profile 2 该文件位置 /root/.bash_profile 3 文件编辑器打开 vi .bash_profile 4 文件末尾加入 JAVA_HOME /usr/share/jdk 1.6.0 PATH $JAVA_HOME/bin:$PA…

一个简单的存储过程

存储过程实现循环取出以特定字符间隔的字符串的单个字符串比如:ab,cdsfd,efdf,owoief,lows实现存储过程后的结果为:abcdsfdefdfowoieflows 这样就可以对这些数据进行循环执行操作 存储过程:if exists(select * from sysobjects where namepro…

基于事件驱动架构构建微服务第8部分:在应用程序上实现事件溯源

原文链接:https://logcorner.com/building-microservices-through-event-driven-architecture-part8-implementing-eventsourcing-on-application/在本文中,我将讨论应用程序上的事件溯源实现。该层围绕领域并实现用例(特定于应用程序的业务规…

我们来聊点成年人的话题!

1 这个话题透漏着成年人都存在的问题,其中心思想行走在道德底线,让人不得不深思,句句入心2 哈哈哈哈哈哈哈哈哈哈哈哈哈画面惊人 图自动漫次元酱3 对不起,我不是你家的鸡,我是一只大鸟!!&#x…

python3 csv读写_在python3中读取、更新和写入更新的CSV文件

我正在创建一个应用程序来本质上充当一个资产数据库,我试图打开一个CSV文件,读取值并相应地更新它们。我看到很多关于如何读写CSV文件的教程,但是我找不到一个详细介绍如何迭代CSV文件和更新单个值的教程。理想情况下,与列表相比&…

js数字相加

las_number Number(ads) Number(abs),转载于:https://www.cnblogs.com/gengaixue/archive/2011/07/08/2100971.html

js获取int类型长度_js代码比较大小前需要把string转换int

今天在写代码时发现一个容易忽略的问题,写下来以供参考这是做的一个验证,设置的最小值minValue不能小于参数本身的最小值min当输入正数的时候都没有问题,但是输入负数时就出现问题了正确设置参数var minValue -30 ,var min -300 ,console.l…

yum安装最新的 LNMP

2019独角兽企业重金招聘Python工程师标准>>> 先添加几个源: rpm -Uvh http://dl.fedoraproject.org/pub/epel/7/x86_64/e/epel-release-7-1.noarch.rpm rpm -Uvh http://rpms.famillecollet.com/enterprise/remi-release-7.rpm 1,安装nginx&a…

JavaScript中encodeURI,encodeURIComponent与escape的注意

大家在使用JS提交数据时,尤其是中文的时候,经常会需要将要提交的字符串进行URL编码。在JS中对字符串进行URL编码有好几种方法,encodeURI,encodeURIComponent,还有escape。在我看到的很多代码中escape这个函数用的最多&…

C#新版本风格项目文件(SDK风格项目 SDK-style project)

在VisualStudio中创建NetCore以上版本的项目,使用的都是新版本风格的项目文件。和旧版本.NetFramework版本的项目文件区别:双击项目可直接打开csproj文件进行编辑配置项目文件内容的改变项目属性文件夹图标更改项目引用去除,改成依赖项Nuget包…

史上最丧心病狂的商品定价套路:如何从数学角度,榨干你身上的每一分钱

全世界只有3.14 % 的人关注了爆炸吧知识世上没有精明的买家,只有精明的卖家。的确,卖家的嘴,骗人的鬼。在买与卖的博弈中,没有一个买家可以取胜。别不信,今天就让你见识下“卖家套路终极奥义”。按量定价,是…

python 接口自动化_Python 接口自动化测试

1. 接口基础知识1.1 接口分类接口一般来说有两种,一种是程序内部的接口,一种是系统对外的接口。(1) webservice接口:走soap协议通过http传输,请求报文和返回报文都是xml格式的,我们在测试的时候都要通过工具才能进行调…

工厂模式 Factory

工厂模式 记得一个好友面试的时候,面试官问他,你怎么获得一个类的对象的好友说,new一个啊,的确没错,对象不是new难道还是create... 当然在使用new对象的时候,这段代码也就意味着难以以后的维护和扩展了&…

java定时器写法_java定时器的写法是什么样?

定时器的用法是java核心基础之一,很多特殊功能都需要用到定时器,下面一起来看看定时器是如何编写的吧。示例:一个具备周期性定时(毫秒级);单时刻定时(秒级);多时刻定时(秒级)。后两个时间的设置必须符合“yyyy-MM-ddHH:mm:ss”、“yyyy-MM-dd…

CentOS中vsftp安装、配置、卸载

CentOS中vsftp安装、配置、卸载转载http://www.zjgsq.com/1509.html转载于:https://blog.51cto.com/bbtao/1606816

struts2文件上传

/*** 单文件的上传* author Administrator**/public class FileUploadAction extends ActionSupport {private static final com.opensymphony.xwork2.util.logging.Logger logger LoggerFactory.getLogger(FileUploadAction.class);//上传文件private File upload;//保存路径…

python的所有库_Python 常用库

前言之前重写了视频字符画处理的代码,然后这两天又在研究命令行和网络。读了一点开源工具的代码,越来越觉得有必要针对性地学习一下一些重要的基础库。这里呢就列个小清单,把我认为有必要学习的库写一下。带 [ x ] 的表示已完成时间time&…

401 Palindrome

这道题最初我是没理解清楚题意,我以为那些reverse栏空白的字母是省略了.后来在这个论坛找到了更多的测试数据,发现了自己理解错了,重新读题 ,修改了下代码- -.弄了很久才AC 我的思路和别人有点不同的是,我是通过计算来得到在常量表中的位置 好吧 这道题本来该总结很多的,今天…

东北大姐剪纸被误认为油画,遭人质疑二十多年,只因太过逼真,看完后:真香!不愧是天下第一剪!...

全世界只有3.14 % 的人关注了爆炸吧知识“这是剪纸?太惟妙惟肖了,我还以为是水彩画呢!”这是一位网友的留言。茂盛的树木、潺潺的流水……这些栩栩如生的场景,真难想象竟是出自,一双巧手和一把剪刀。这些作品,全部来自…

2021 年 9 月 TIOBE 指数 C# 同比增长突破 1.2%

TIOBE 编程社区指数是编程语言流行程度的指标。该指数每月更新一次。评级基于全球熟练工程师、课程和第三方供应商的数量。谷歌、必应、雅虎、维基百科、亚马逊、YouTube 和百度等流行搜索引擎用于计算评分。C# 近期发展状态不错,依旧在榜单中排第五,但排…