哈夫曼实现文件压缩解压缩(c语言)

写一个对文件进行压缩和解压缩的程序,功能如下:

① 可以对纯英文文档实现压缩和解压;

② 较好的界面程序运行的说明。

 

 

介绍哈夫曼:

 

效率最高的判别树即为哈夫曼树

在计算机数据处理中,霍夫曼编码使用变长编码表对源符号(如文件中的一个字母)进行编码,其中变长编码表是通过一种评估来源符号出现机率的方法得到的,出现机率高的字母使用较短的编码,反之出现机率低的则使用较长的编码,这便使编码之后的字符串的平均长度、期望值降低,从而达到无损压缩数据的目的。

例如,在英文中,e的出现机率最高,而z的出现概率则最低。当利用霍夫曼编码对一篇英文进行压缩时,e极有可能用一个比特来表示,而z则可能花去25个比特(不是26)。用普通的表示方法时,每个英文字母均占用一个字节,即8个比特。二者相比,e使用了一般编码的1/8的长度,z则使用了3倍多。倘若我们能实现对于英文中各个字母出现概率的较准确的估算,就可以大幅度提高无损压缩的比例。

霍夫曼树又称最优二叉树,是一种带权路径长度最短的二叉树。所谓树的带权路径长度,就是树中所有的叶结点的权值乘上其到根结点的路径长度(若根结点为0层,叶结点到根结点的路径长度为叶结点的层数)。树的路径长度是从树根到每一结点的路径长度之和,记为WPL=(W1*L1+W2*L2+W3*L3+...+Wn*Ln),N个权值Wi(i=1,2,...n)构成一棵有N个叶结点的二叉树,相应的叶结点的路径长度为Li(i=1,2,...n)。可以证明霍夫曼树的WPL是最小的。

 

文件压缩与解压

姓名:  范天祚 

1 程序说明

1.1数据结构

哈夫曼树

1.2函数功能说明

printfPercent界面

compress()读取文件内容并加以压缩,将压缩内容写入另一个文档

uncompress()解压缩文件,并将解压后的内容写入新文件

1.3 程序编写的思路及流程

压缩:统计字符出现次数、将节点按出现次数排序、构造哈夫曼树、设置字符编码、读文件字符、按设置好的编码替换字符、写入存储文件

解压:读取文件各参数、转换成二进制码、按码求对应字符、写入存储文件

#define _CRT_SECURE_NO_WARNINGS
#include <stdlib.h>
#include <stdio.h>
#include <string.h>struct head
{int b;						  //字符long count;                   //文件中该字符出现的次数long parent, lch, rch;        //make a treechar bits[256];               //the huffuman code
};struct head header[512], tmp;  //节点树void printfPercent(int per)
{int i = 0;printf("|");for(i = 0; i < 10; i++){if(i < per/10)printf(">");elseprintf("-");}printf("|已完成%d%%\n",per);
}//函数:compress()
//作用:读取文件内容并加以压缩
//将压缩内容写入另一个文档
int compress(const char *filename,const char *outputfile)
{char buf[512];unsigned char c;long i, j, m, n, f;long min1, pt1, flength;FILE *ifp, *ofp;int per = 10;ifp = fopen(filename, "rb");                  //打开原始文件if (ifp == NULL){printf("打开文件失败:%s\n",filename);return 0;                             //如果打开失败,则输出错误信息}ofp = fopen(outputfile,"wb");                 //打开压缩后存储信息的文件if (ofp == NULL){printf("打开文件失败:%s\n",outputfile);return 0;}flength = 0;while (!feof(ifp)){fread(&c, 1, 1, ifp);header[c].count ++;                       //读文件,统计字符出现次数flength ++;                               //记录文件的字符总数}flength --;header[c].count --;for (i = 0; i < 512; i ++)                    //HUFFMAN算法中初始节点的设置{if (header[i].count != 0)header[i].b = (unsigned char) i;elseheader[i].b = -1;header[i].parent = -1;header[i].lch = header[i].rch = -1;}for (i = 0; i < 256; i ++)                    //将节点按出现次数排序{for (j = i + 1; j < 256; j ++){if (header[i].count < header[j].count){tmp = header[i];header[i] = header[j];header[j] = tmp;}}}for (i = 0; i < 256; i ++)                    //统计不同字符的数量{if (header[i].count == 0)break;}n = i;m = 2 * n - 1;for (i = n; i < m; i ++){min1 = 999999999;for (j = 0; j < i; j ++){if (header[j].parent != -1) continue;if (min1 > header[j].count){pt1 = j;min1 = header[j].count;continue;}}header[i].count = header[pt1].count;header[pt1].parent = i;header[i].lch = pt1;min1 = 999999999;for (j = 0; j < i; j ++){if (header[j].parent != -1) continue;if (min1 > header[j].count){pt1 = j;min1 = header[j].count;continue;}}header[i].count += header[pt1].count;header[i].rch = pt1;header[pt1].parent = i;}for (i = 0; i < n; i ++)                        //构造HUFFMAN树,设置字符的编码{f = i;header[i].bits[0] = 0;while (header[f].parent != -1){j = f;f = header[f].parent;if (header[f].lch == j){j = strlen(header[i].bits);memmove(header[i].bits + 1, header[i].bits, j + 1);header[i].bits[0] = '0';}else{j = strlen(header[i].bits);memmove(header[i].bits + 1, header[i].bits, j + 1);header[i].bits[0] = '1';}}}//下面的就是读原文件的每一个字符,按照设置好的编码替换文件中的字符fseek(ifp, 0, SEEK_SET);                                                //将指针定在文件起始位置fseek(ofp, 8, SEEK_SET);                                //以8位二进制数为单位进行读取buf[0] = 0;f = 0;pt1 = 8;printf("读取将要压缩的文件:%s\n",filename);printf("当前文件有:%d字符\n",flength);printf("正在压缩\n");while (!feof(ifp)){c = fgetc(ifp);f ++;for (i = 0; i < n; i ++){if (c == header[i].b) break;}strcat(buf, header[i].bits);j = strlen(buf);c = 0;while (j >= 8)                                             //当剩余字符数量不小于8个时{for (i = 0; i < 8; i ++)                               //按照八位二进制数转化成十进制ASCII码写入文件一次进行压缩{if (buf[i] == '1') c = (c << 1) | 1;else c = c << 1;}fwrite(&c, 1, 1, ofp);pt1 ++;strcpy(buf, buf + 8);j = strlen(buf);}if(100 * f/flength > per){printfPercent(per);per += 10;}if (f == flength)break;}printfPercent(100);if (j > 0)                                                      //当剩余字符数量少于8个时{strcat(buf, "00000000");for (i = 0; i < 8; i ++){if (buf[i] == '1') c = (c << 1) | 1;else c = c << 1;                                        //对不足的位数进行补零}fwrite(&c, 1, 1, ofp);pt1 ++;}fseek(ofp, 0, SEEK_SET);                                        //将编码信息写入存储文件fwrite(&flength,1,sizeof(flength),ofp);fwrite(&pt1, sizeof(long), 1, ofp);fseek(ofp, pt1, SEEK_SET);fwrite(&n, sizeof(long), 1, ofp);for (i = 0; i < n; i ++){tmp = header[i];fwrite(&(header[i].b), 1, 1, ofp);pt1++;c = strlen(header[i].bits);fwrite(&c, 1, 1, ofp);pt1++;j = strlen(header[i].bits);if (j % 8 != 0)                                             //当位数不满8时,对该数进行补零操作{for (f = j % 8; f < 8; f ++)strcat(header[i].bits, "0");}while (header[i].bits[0] != 0){c = 0;for (j = 0; j < 8; j ++){if (header[i].bits[j] == '1') c = (c << 1) | 1;else c = c << 1;}strcpy(header[i].bits, header[i].bits + 8);fwrite(&c, 1, 1, ofp);                                            //将所得的编码信息写入文件pt1++;}header[i] = tmp;}fclose(ifp);fclose(ofp);                                                              //关闭文件printf("压缩后文件为:%s\n",outputfile);printf("压缩后文件有:%d字符\n",pt1 + 4);return 1;                                       //返回压缩成功信息
}//函数:uncompress()
//作用:解压缩文件,并将解压后的内容写入新文件
int uncompress(const char *filename,const char *outputfile)
{char buf[255], bx[255];unsigned char c;char out_filename[512];long i, j, m, n, f, p, l;long flength;int per = 10;int len = 0;FILE *ifp, *ofp;char c_name[512] = {0};ifp = fopen(filename, "rb");                                              //打开文件if (ifp == NULL){return 0;     //若打开失败,则输出错误信息}//读取原文件长if(outputfile)strcpy(out_filename,outputfile);elsestrcpy(out_filename,c_name);ofp = fopen(out_filename, "wb");                                            //打开文件if (ofp == NULL){return 0;}fseek(ifp,0,SEEK_END);len = ftell(ifp);fseek(ifp,0,SEEK_SET);printf("将要读取解压的文件:%s\n",filename);printf("当前文件有:%d字符\n",len);printf("正在解压\n");fread(&flength, sizeof(long), 1, ifp);                                    //读取原文件长fread(&f, sizeof(long), 1, ifp);fseek(ifp, f, SEEK_SET);fread(&n, sizeof(long), 1, ifp);                                          //读取原文件各参数for (i = 0; i < n; i ++)                                                  //读取压缩文件内容并转换成二进制码{fread(&header[i].b, 1, 1, ifp);fread(&c, 1, 1, ifp);p = (long) c;header[i].count = p;header[i].bits[0] = 0;if (p % 8 > 0) m = p / 8 + 1;else m = p / 8;for (j = 0; j < m; j ++){fread(&c, 1 , 1 , ifp);f = c;_itoa(f, buf, 2);f = strlen(buf);for (l = 8; l > f; l --){strcat(header[i].bits, "0");                                  //位数不足,执行补零操作}strcat(header[i].bits, buf);}header[i].bits[p] = 0;}for (i = 0; i < n; i ++){for (j = i + 1; j < n; j ++){if (strlen(header[i].bits) > strlen(header[j].bits)){tmp = header[i];header[i] = header[j];header[j] = tmp;}}}p = strlen(header[n-1].bits);fseek(ifp, 8, SEEK_SET);m = 0;bx[0] = 0;while (1){while (strlen(bx) < (unsigned int)p){fread(&c, 1, 1, ifp);f = c;_itoa(f, buf, 2);f = strlen(buf);for (l = 8; l > f; l --){strcat(bx, "0");}strcat(bx, buf);}for (i = 0; i < n; i ++){if (memcmp(header[i].bits, bx, header[i].count) == 0) break;}strcpy(bx, bx + header[i].count);c = header[i].b;fwrite(&c, 1, 1, ofp);m ++;if(100 *  m/flength > per){printfPercent(per);per += 10;}if (m == flength) break;}printfPercent(100);fclose(ifp);fclose(ofp);printf("解压后文件为:%s\n",out_filename);printf("解压后文件有:%d字符\n",flength);return 1;                   //输出成功信息
}int main(int argc,const char *argv[])
{memset(&header,0,sizeof(header));memset(&tmp,0,sizeof(tmp));compress("测试文档.txt","测试文档.txt.zip");uncompress("测试文档.txt.zip","测试文档.txt 解压后.txt");system("pause");return 0;
}

 

2 功能展示

2.1 控制台显示

2.2 文件效果

开始时只有一个文件《测试文档.txt》:

打开《测试文档.txt》

《测试文档.txt》文件大小:

程序运行结束后多了两个文件:

以文本形式打开压缩二进制文件《测试文档.txt.zip》:

《测试文档.txt.zip》文件属性:

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/445451.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

c++基础学习(11)--(模板、预处理器、信号处理)

文章目录目录1.模板2.预处理器3.信号处理目录 1.模板 模板是泛型编程的基础&#xff0c;泛型编程&#xff1a;以一种独立于任何特定类型的方式 #include <iostream> #include <string>using namespace std;template <typename T> inline T const& Max…

c++基础学习(12)--(多线程、Web编程)

文章目录目录1.多线程2.web编程目录 1.多线程 #include <iostream> // 必须的头文件 #include <pthread.h>using namespace std;#define NUM_THREADS 5// 线程的运行函数 void* say_hello(void* args) {cout << "Hello Runoob&#xff01;" <&…

《Head First设计模式》第九章(1)迭代器模式

迭代器模式 因为这一章涉及到两个模式&#xff0c;内容有点多&#xff0c;还有一个组合模式留到下一篇写吧。 有许多种方法可以把对象堆起来成为一个集合&#xff08;collection&#xff09;。你可以把它们放进数组、堆栈、列表或者是散列表&#xff08;Hashtable&#xff09…

索尼XB950N1 震撼人心的重低音

虽然题目是震撼人心的重低音&#xff0c;但是低音可以通过app调节&#xff0c;所以我们可以用这个耳机听各种类型的歌曲。 索尼XB950N1与XB950B1非常相似&#xff0c;但索尼XB950N1提供了主动降噪&#xff0c;续航稍长一些。从蓝牙3.0升级到了蓝牙4.1&#xff0c;改善了传输范…

数据结构和算法(04)---数组,动态内存,vector(c++)

文章目录目录数组1.数组的申明2.数组的初始化3.二维数组4.指向数组的指针5.传递数组给函数动态内存1.new &#xff0c;delete运算符2.数组的动态内存分配vector1.vector基本操作2.vector使用3.vector动态二维数组 初始化和赋值目录 数据结构&#xff1a; 逻辑结构&#xff1a;数…

数据结构和算法(05)---链表(c++)

文章目录目录链表的基本概念1.数组和链表链表的使用1.链表的简单使用2.链表的进阶使用3.链表的高阶使用4.链表的其他操作链表容器list1.list介绍2. list使用3. list与vector之间的区别4.list例子代码目录 数据结构&#xff1a; 逻辑结构&#xff1a;数组&#xff0c;栈&#xf…

论文阅读 状态压缩

状态压缩 Abstract 信息学发展势头迅猛&#xff0c;信息学奥赛的题目来源遍及各行各业&#xff0c;经常有一些在实际应用中很有价值的问题被引入信息学并得到有效解决。然而有一些问题却被认为很可能不存在有效的(多项式级的)算法&#xff0c;本文以对几个例题的剖析&#xf…

数据结构和算法(06)---二叉树(c++)

文章目录目录二叉树1.二叉树的基本概念2.二叉树的应用和时间复杂度3.二叉树的插入4.二叉树的查找5. 二叉树的遍历6.二叉树的删除二叉树的基本操作1.二叉树的基础操作2.代码实现创建二叉树和三种遍历二叉树的方法目录 数据结构&#xff1a; 逻辑结构&#xff1a;数组&#xff0c…

如何转载CSDN博客

前言 对于喜欢逛CSDN的人来说&#xff0c;看别人的博客确实能够对自己有不小的提高&#xff0c;有时候看到特别好的博客想转载下载&#xff0c;但是不能一个字一个字的敲了&#xff0c;这时候我们就想快速转载别人的博客&#xff0c;把别人的博客移到自己的空间里面&#xff0c…

CSDN写博客(字体颜色、大小)

markdown里面的标记语言可以使用标签对来实现对文本文字颜色大小信息的控制。下面给出几个实例&#xff1a; 黑体字示例 微软雅黑示例 华文彩云示例 color#00ffff size可以根据实际大小进行设置&#xff0c;一般不超过7。 红色字体CSDN 红色字体CSDN 使用十六进制颜色值 …

bose qc30 安静的城市是什么样子

使用感受 网友1&#xff08;20岁&#xff09;&#xff1a; 当你带着这个耳机听音乐的时候&#xff0c;有一种感觉&#xff0c;感觉这个世界都是你歌曲里的MV&#xff0c;这个枯燥乏味的世界都被赋予了你心中的那份情感&#xff0c;这种感觉&#xff0c;真的很棒 网友2&#…

DeepLearning.ai 提炼笔记(5-1)-- 循环神经网络

参考博客 Class 5: 序列模型Sequence Models Week 1: 循环神经网络RNN (Recurrent) 文章目录Class 5: 序列模型Sequence ModelsWeek 1: 循环神经网络RNN (Recurrent)目录序列模型-循环神经网络1.序列模型的应用2.数学符号3.循环神经网络模型传统标准的神经网络循环神经网络的…

常见人工智能比赛平台总结

目录1.kaggle比赛1.1 kaggle比赛是什么&#xff1f;1.2 为什么举办kaggle比赛&#xff1f;1.3 kaggle比赛形式是什么&#xff1f;1.4 kaggle比赛的奖励制度是什么&#xff1f;2.阿里天池比赛2.1 阿里天池比赛是什么&#xff1f;2.2 为什么举办阿里天池比赛&#xff1f;2.3 阿里…

机器学习模型评分总结(sklearn)

文章目录目录模型评估评价指标1.分类评价指标acc、recall、F1、混淆矩阵、分类综合报告1.准确率方式一&#xff1a;accuracy_score方式二&#xff1a;metrics2.召回率3.F1分数4.混淆矩阵5.分类报告6.kappa scoreROC1.ROC计算2.ROC曲线3.具体实例2.回归评价指标3.聚类评价指标1.…

kaggle (02) - 房价预测案例(进阶版)

房价预测案例&#xff08;进阶版&#xff09; 这是进阶版的notebook。主要是为了比较几种模型框架。所以前面的特征工程部分内容&#xff0c;我也并没有做任何改动&#xff0c;重点都在后面的模型建造section Step 1: 检视源数据集 import numpy as np import pandas as pd读…

《Head First设计模式》第二章笔记 观察者模式

背景 客户有一个WeatherData对象&#xff0c;负责追踪温度、湿度和气压等数据。现在客户给我们提了个需求&#xff0c;让我们利用WeatherData对象取得数据&#xff0c;并更新三个布告板&#xff1a;目前状况、气象统计和天气预报。 WeatherData对象提供了4个接口&#xff1a; …

《Head First设计模式》第三章笔记 装饰者模式

装饰者模式&#xff08;Decorator Pattern) *利用组合&#xff08;composition&#xff09;和委托&#xff08;delegation&#xff09;可以在运行时实现继承行为的效果&#xff0c;动态地给对象加上新的行为。 *利用继承扩展子类的行为&#xff0c;是在编译时静态决定的&#x…

机器学习中如何解决数据不平衡问题?

文章目录目录什么是数据不平衡问题&#xff1f;数据不平衡会造成什么影响&#xff1f;如何处理数据不平衡问题&#xff1f;1、重新采样训练集1.1随机欠抽样1.2.基于聚类的过采样2.使用K-fold交叉验证3.转化为一分类问题4.组合不同的重采样数据集5.用不同比例重新采样6.多模型Ba…

《Head First设计模式》第四章笔记 工厂模式

之前我们一直在使用new操作符&#xff0c;但是实例化这种行为并不应该总是公开的进行&#xff0c;而且初始化经常会造成耦合问题&#xff0c;工厂模式将摆脱这种复杂的依赖&#xff0c;本次内容包括简单工厂&#xff0c;工厂方法和抽象工厂三种情况。 1 2 3 4 5 6 Duck duck&a…

《Head First设计模式》第五章笔记-单件模式

单件模式 定义&#xff1a;确保一个类只有一个实例&#xff0c;并提供全局访问点。 编写格式&#xff1a; 1 2 3 4 5 6 public class MyClass{ private MyClass(){}//构造方法私有化 public static MyClass getInstance(){ //提供全局访问点 return new My…