外排序(C语言实现)

前言

本篇博客讲解一下外排序,看这篇排序你的先去看一下:八大经典排序算法-CSDN博客

💓 个人主页:普通young man-CSDN博客

⏩ 文章专栏:排序_普通young man的博客-CSDN博客

      若有问题 评论区见📝

🎉欢迎大家点赞👍收藏⭐文章

      

目录

快速回忆快速排序和归并排序

函数接口回顾

fscanf/fprintf/sscanf/sprintf

1. fscanf

2. fprintf

3. sscanf

4. sprintf

外排序详解

1. 内存限制

2. 提高效率与可管理性

3. 算法适用性

代码

代码中函数的作用

. 基础函数定义

2. 快速排序算法

3. 文件归并排序

注意


  在本文中,我们将深入探讨如何使用C语言实现快速排序算法,并将其应用于大文件的排序问题上,通过文件归并的方式处理大数据量的排序需求。这不仅是一个理论知识的应用,也是解决实际问题的一个实例。

快速回忆快速排序和归并排序

八大经典排序算法-CSDN博客文章浏览阅读1k次,点赞23次,收藏23次。深入探讨了八大排序算法——冒泡排序、选择排序、插入排序、希尔排序、归并排序、快速排序、堆排序、以及我们刚刚详析的计数排序之后,我们不仅掌握了一系列解决排序问题的有效策略,更深刻理解了算法设计背后的逻辑与权衡。每种算法,如同八音盒中的音符,各有其独特的旋律与应用场景,它们共同编织了计算机科学领域中关于“排序”这一基本问题的华丽乐章。数据结构-堆(带图)详解-CSDN博客。栈(Stack)是一种基本的数据结构,其特点是只允许在同一端进行插入和删除操作,这一端被称为栈顶。_排序算法https://blog.csdn.net/2302_78381559/article/details/139837523?spm=1001.2014.3001.5501这个博客有这两个排序算法的一个讲解

函数接口回顾

fscanf/fprintf/sscanf/sprintf

1. fscanf

fscanf 函数用于从指定的文件中读取数据并根据特定格式解析。它允许你按照预定义的格式从文件中读取各种类型的数据,如整数、浮点数或字符串等。

原型:

int fscanf(FILE *stream, const char *format, ...);
  • 参数:

    • stream: 指向需要读取的文件的文件指针。
    • format: 一个控制字符串,用于指定输入数据的格式。
    • ...: 可变参数列表,对应于格式字符串中定义的数据类型的地址。
  • 返回值: 成功读取并转换的项目数量,如果遇到文件结束或者读取错误则返回EOF。

2. fprintf

fprintf 函数用于将数据按照指定的格式输出到一个文件中。它与printf类似,但输出目标是文件而非标准输出。

原型:

int fprintf(FILE *stream, const char *format, ...);
  • 参数:

    • stream: 指向要写入的文件的文件指针。
    • format: 控制输出格式的字符串。
    • ...: 与格式字符串匹配的变量列表。
  • 返回值: 成功写入的字符数量,若发生错误则返回负值。

3. sscanf

sscanf 函数用于从字符串中读取数据,与fscanf类似,但它的输入源是一个字符串而不是文件。

原型:

int sscanf(const char *str, const char *format, ...);
  • 参数:

  • ...: 存储读取数据的变量地址列表。

    • format: 指定如何解析字符串的格式控制符。
    • str: 要读取的字符串。
    • 返回值: 成功读取的输入项数量。

4. sprintf

sprintf 函数用于将格式化的数据写入到一个字符串中,类似于printf,但是输出目标是一个字符数组。

原型:

int sprintf(char *str, const char *format, ...);
  • 参数:

    • str: 目标字符串的地址,写入格式化后的数据。
    • format: 格式字符串,定义输出数据的格式。
    • ...: 一系列变量,与格式字符串中的占位符对应。
  • 返回值: 写入到字符串中的字符数量,不包括结尾的空字符\0

外排序详解

我们先看一下思想:

通过这个图我们可以看到是我们先要将文件的数据分成10等份将每一个等份的文件里的数据排序,然后再将10个 文件进行归并,这样所有数据就排好了

为什么要分等份排序嘞?

1. 内存限制

最直接的原因是计算机内存的限制。对于非常大的数据集,一次性将所有数据载入内存进行排序通常是不可行的。操作系统为每个进程分配的内存空间有限,超出这个限制会导致内存溢出错误。因此,通过将大文件切分为多个小文件,可以确保每个小文件都能在内存中进行高效排序,利用快速排序等算法完成局部排序。

2. 提高效率与可管理性

  • 减少磁盘I/O操作:频繁的磁盘读写是影响程序性能的主要因素之一。将大文件分割成小文件,使得每个小文件可以较快地被读入内存进行处理,减少了整体的磁盘读写次数,提高了效率。
  • 并行处理机会:分片后的小文件可以并行排序,尤其在多核处理器或多计算机系统中,每个小文件可以由不同的处理器或机器独立处理,大大加快了排序速度。

3. 算法适用性

快速排序、归并排序等高效的排序算法在小规模数据集上表现优异,但在大规模数据集上直接应用会受到内存限制。分块排序后,每一块数据量较小,可以更好地利用这些算法的优势。


代码

#define _CRT_SECURE_NO_WARNINGS 1
#include<assert.h>
#include<stdio.h>
#include<stdlib.h>
#include<string.h>
//交换
void Swap(int* p1,int* p2) {int tmp = *p1;*p1 = *p2;*p2 = tmp;
}//三数取中
int GetMidIndex(int* a,int left,int right) {//计算midint mid = (left + right) / 2;//比较if (a[left] > a[mid]){if (a[mid] > a[right]) {return mid;}else if(a[left] < a[right]){return left;}else{return right;}}else  //a[left] < a[mid]{if (a[mid] < a[right]){return mid;}else if(a[left] > a[right]){return left;}else{return right;}}}//快排
void QuickSort(int* a,int left, int right) {assert(a);if (left >= right){return;}int Midindex = GetMidIndex(a,left,right);Swap(&a[Midindex], &a[left]);//前后指针int prev = left;int cur = left+1;int keyi = left;//循环while (cur <= right){if (a[keyi] > a[cur] && ++prev != cur)Swap(&a[cur],&a[prev]);++cur;}//交换prev和keyi,得出keyiSwap(&a[keyi], &a[prev]);//分治 [left-keyi-1]  keyi [keyi+1-right]keyi = prev;QuickSort(a, left, keyi - 1);QuickSort(a, keyi+1, right);
}//文件归并
void _MergeSortFile(const char* file1,const char* file2,const char* mfile) {//打开第一个文件FILE* four1 = fopen(file1, "r");if (four1 == NULL){assert("file1:打开文件失败\n");}//打开第二个文件FILE* four2 = fopen(file2, "r");if (four2 == NULL){assert("file2:打开文件失败\n");}//创建归并文件FILE* fin = fopen(mfile, "w");if (fin == NULL){assert("mfile:打开文件失败\n");}//进行归并int num1, num2;int ret1 = fscanf(four1, "%d\n", &num1);int ret2 = fscanf(four2, "%d\n", &num2);while (ret1 != EOF && ret2 != EOF){if (num1 < num2) {fprintf(fin, "%d\n", num1);ret1 = fscanf(four1, "%d\n", &num1);}else //num1 > num2{fprintf(fin, "%d\n", num2);ret2 = fscanf(four2, "%d\n", &num2);}}//将剩余数据放进归并文件while (ret1 != EOF){fprintf(fin, "%d\n", num1);ret1 = fscanf(four1, "%d\n", &num1);}while (ret2 != EOF){fprintf(fin, "%d\n", num2);ret2 = fscanf(four2, "%d\n", &num2);}//关闭文件fclose(fin);fclose(four1);fclose(four2);
}
void MergeSortFile(const char* file) {//导入文件数据FILE* four = fopen(file, "r");if (four == NULL){assert("MergeSortFile:fopen");}//定义变量int a[10] = {0};//分组数组int n = sizeof(a) / sizeof(a[0]);//分组大小int num = 0;//指针指向数据char subfile[20];//存储文件名的指针int filei = 1;//文件名编号int i = 0;//数组下标while (fscanf(four,"%d\n",&num) != EOF){if (i < n-1) {a[i++] = num;//进入8个数据}else{a[i] = num;QuickSort(a, 0, n - 1);sprintf(subfile,"sub\\sub_sort%d", filei++);//创建文件FILE* sub_fin =  fopen(subfile, "w");if (sub_fin == NULL){assert("sub_fin:fopen");}//将数据写入文件for (int j = 0; j < n; j++){fprintf(sub_fin, "%d\n", a[j]);}fclose(sub_fin);//初始化一些数据,方便下一次数据写入i = 0;memset(a, 0, sizeof(int)*n);}}//对十个文件进行归并操作char file1[100] = "sub\\sub_sort1";//第一个文件char file2[100] = "sub\\sub_sort2";//第二个文件char mfile[100] = "sub\\sub_sort12";//两个文件归并后存放的位置for (int k = 2; k <= n; k++){//归并_MergeSortFile(file1,file2,mfile);//改变file1的位置到mfilestrcpy(file1, mfile);//file2向后走sprintf(file2, "sub\\sub_sort%d", k+1);//改变mfile文件名,使他在下一次循环创建一个新的文件sprintf(mfile,"%s%d",mfile, k+1);}printf("排序成功\n");fclose(four);}
int main()
{MergeSortFile("SortData.txt");//int arr[] = { 3,5,6,8,10,12,58,1,8,7 };//int sz = sizeof(arr) / sizeof(arr[0]);//QuickSort(arr, 0, sz - 1);//for (int i = 0; i < sz; i++)//{//	printf("%d ", arr[i]);//}return 0;
}

代码中函数的作用

. 基础函数定义

  • Swap:用于交换两个整型指针所指向的值。
  • GetMidIndex:实现了“三数取中”策略,用于在数组的一段范围内找出中位数的索引,以优化快速排序的性能。它通过比较数组两端和中间三个元素的值来决定返回哪个索引。

2. 快速排序算法

  • QuickSort:实现快速排序的核心逻辑。首先调用GetMidIndex选取基准元素,通过一次遍历来将数组分为两部分,一部分小于基准,另一部分大于基准,然后递归地对这两部分继续进行快速排序。此过程确保了最终数组的升序排列。

3. 文件归并排序

  • _MergeSortFile:负责两个已排序文件的归并操作。它打开两个输入文件,创建一个输出文件,然后逐行读取两个文件中的数字,比较后将较小的数字写入输出文件,直到某个文件读完。之后,将剩余文件的全部内容追加到输出文件末尾,最后关闭所有文件。
  • MergeSortFile:这是主函数,用于处理大文件的排序。它首先打开原始数据文件,然后分批读取数据到数组a中,每满一组就调用QuickSort排序,将排序后的数据写入到名为sub_sortX的小文件中。之后,通过循环调用_MergeSortFile函数,两两归并这些小文件,最终得到一个完全有序的大文件。此过程动态更新文件名,确保每次归并产生的新文件都能正确参与后续归并。

注意

大家看这儿可能会疑惑,为什么要这么写?

你们可能会想为什么我不这样写

其实这样写num会有一个吞数据行为

这个是我在小本本上写的,字比较撇哈,不过能帮大家解决疑惑就行,从这个图我们可以就看出,每一次循环我们的num都会吞掉一个数据,走十次就会吞掉十个数据,这样的话,我们就只会有9个文件

照成这个原因:

1,后置++

2,fscanf每调用一次指针都会向后走

所以改进了一下这个写法

我们先让数据进去8个,最后一个数据在排序之前放进去,就不会出现这种情况了

好了今天的博客就到这里了,希望能给大家解决到问题,哈哈哈

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/32778.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】带头双向循环链表的实现及链表顺序表的区别

目录 一、带头双向循环链表接口实现 连接关系&#xff1a; 创建哨兵位&#xff08;表头&#xff09;&#xff1a; 头插——头删&#xff1a; 尾插——尾删&#xff1a; 查找——打印&#xff1a; 指定位置pos前插入&#xff0c;删除pos位置&#xff1a; 链表销毁&#x…

setInterval 定时任务执行时间不准验证

一般在处理定时任务的时候都使用setInterval间隔定时调用任务。 setInterval(() > {console.log("interval"); }, 2 * 1000);我们定义的是两秒执行一次&#xff0c;但是浏览器实际执行的间隔时间只多不少。这是由于浏览器执行 JS 是单线程模式&#xff0c;使用se…

解决ArcGIS导出的svg格式的图片插入Word后的字体问题

背景 在ArcGIS中设置字体为Times New Roman&#xff0c;但导入Word后字体转为等线。 ArcGIS中的Layout 导入Word​​​​​​ 原因分析 Word无法识别嵌入进SVG格式文件中的字体。 解决方案 在Export Layer窗口中&#xff0c;将Embed fonts取消勾选&#xff0c;Convert cha…

【深度学习】 探讨Stable Diffusion模型的训练及其偏向性

探讨Stable Diffusion模型的训练及其偏向性 近年来&#xff0c;生成式模型在图像生成领域取得了显著进展&#xff0c;特别是Stable Diffusion模型。作为一种基于扩散过程的生成模型&#xff0c;Stable Diffusion模型展现了生成高质量图像的巨大潜力。然而&#xff0c;与所有机…

本地离线模型搭建指南-RAG架构实现

搭建一个本地中文大语言模型&#xff08;LLM&#xff09;涉及多个关键步骤&#xff0c;从选择模型底座&#xff0c;到运行机器和框架&#xff0c;再到具体的架构实现和训练方式。以下是一个详细的指南&#xff0c;帮助你从零开始构建和运行一个中文大语言模型。 本地离线模型搭…

基于SSM+Vue+微信小程序的大学生就业平台系统+毕业论文

项目包含前台和后台两部分&#xff1a;多角色登录&#xff0c;功能完善&#xff0c;界面优美 前台主要功能实现&#xff1a;首页列表查看、求职信息管理、简历管理、面试邀请管理、个人中心等 后台主要功能实现&#xff1a;首页、个人中心、学生管理、企业管理、企业类型管理…

浏览器插件利器-allWebPluginV2.0.0.14-bata版发布

allWebPlugin简介 allWebPlugin中间件是一款为用户提供安全、可靠、便捷的浏览器插件服务的中间件产品&#xff0c;致力于将浏览器插件重新应用到所有浏览器。它将现有ActiveX插件直接嵌入浏览器&#xff0c;实现插件加载、界面显示、接口调用、事件回调等。支持谷歌、火狐等浏…

【C++】初始化列表、匿名对象、static成员、友元、内部类

文章目录 一、初始化列表构造函数体赋值初始化列表explicit关键字 二、匿名对象三、static成员四、友元友元函数友元类 五、内部类六、练习题 一、初始化列表 构造函数体赋值 实际上&#xff0c;构造函数的函数体内&#xff0c;并不是对 对象 初始化的地方&#xff0c;而是对…

34、shell数组+正则表达式命令

0、课前补充 jiafa () { result$(echo " $1 $2 " | bc ) print "%.2f\n" "$result" } ##保留小数点两位 薄弱加强点 a$(df -h | awk NR>1 {print $5} | tr -d %) echo "$a"一、数组 1.1、定义 数组的定义&am…

数据分析BI仪表盘搭建

BI仪表盘搭建六个原则&#xff1a; 1.仪表盘搭建符合业务的阅读&#xff0c;思考和操作逻辑。 2.明确仪表盘主题&#xff0c;你的用户对什么感兴趣。 普通业务人员&#xff1a;销售&#xff1a;注册&#xff0c;激活&#xff0c;成交投放&#xff1a;消耗&#xff0c;转化率…

只有一个鸿蒙好?还是鸿蒙、安卓、IOS并存好?

这个话题&#xff0c;现在很敏感&#xff0c;为了防止被喷&#xff0c;我提前且清楚的交待我的观点&#xff1a;我双手欢迎鸿蒙、欢迎仓颉&#xff0c;而且我已经用行动来支持&#xff0c;比如2021年刚发布ArkUI时&#xff0c;我就第一时间上手了&#xff0c;且这几年一直在跟进…

教程:LVM操作讲解

LVM简介 在系统运维过程中&#xff0c;对磁盘扩缩容是常见的操作。如何高效的管理磁盘容量&#xff0c;lvm提供了很好的解决方案。 LVM将磁盘抽象成PV、VG、LV&#xff0c;方便用户进行磁盘管理&#xff0c;简单来讲&#xff0c;是由物理磁盘划分成PV&#xff0c;PV加入到具体…

荣耀社招 测试工程师 技术一面

面经哥只做互联网社招面试经历分享&#xff0c;关注我&#xff0c;每日推送精选面经&#xff0c;面试前&#xff0c;先找面经哥 1、自我介绍 2、具体介绍做过的项目&#xff0c;支撑的事什么业务 3、防火墙测试时、平时有写脚本或者使用第三方工具吗 4、对互联网的安全测试规…

BarTender中文版安装包下载及安装教程

​根据大数据结果显示可扩充的大容量卷标数据库&#xff1a;利用大量已设计好的标签库,从数以千计的现成标签尺寸中进行选择,也能够定义并加入自己的标签库尺寸。习惯上来说操作简单&#xff1a;BarTender条码打印软件是目前功能最强大、便捷的标签设计打印软件,在150 多个国家…

力扣-两数之和

文章目录 题目题解方法1-暴力方法2-哈希 题目 原题链接&#xff1a;两数之和 题解 方法1-暴力 我最先想到的方法就是暴力&#xff0c;两层for循环&#xff0c;也能通过。&#xff08;拿到算法题在没有思路的时候暴力就是思路&#xff0c;哈哈哈&#xff09; public class T…

坎德拉candela3d光伏电站三维设计软件【无标题】

Candela3D 是一款基于 SketchUp&#xff08;草图大师&#xff09;开发的新一代光伏电站三维设计软件。它适用于复杂地形、平坦地形光伏电站的建设项目&#xff0c;同时适用于可研、初设、施工图、项目运营等阶段。这款软件具有多项功能&#xff0c;例如&#xff1a; • 能够突…

【云原生】Docker可视化工具Portainer使用详解

目录 一、前言 二、docker可视化管理概述​​​​​​​ 2.1 什么是docker可视化管理 2.1.1 Docker可视化管理常用功能 2.2 为什么需要docker可视化管理工具 2.3 docker可视化工具带来的好处 三、常用的docker容器可视化管理工具解决方案 3.1 Portainer 3.2 Rancher 3…

【Python机器学习】k均值聚类——矢量量化,或者将k均值看作分解

虽然k均值是一种聚类算法&#xff0c;但在k均值和分解方法之间存在一些相似之处。k均值尝试利用簇中心来表示每个数据点&#xff0c;可以看作仅用一个分量来表示每个数据点&#xff0c;该分量由簇中心给出。这种观点将k均值看作是一种分解方法&#xff0c;其中每个点用单一分量…

可视化大屏开发系列——DataV的使用

以下内容为近期个人学习总结&#xff0c;若有错误之处&#xff0c;欢迎指出&#xff01; 可视化大屏开发系列——DataV的使用 一、介绍二、注意事项1、技术支持2、兼容性3、状态更新 三、实现效果四、使用&#xff08;在vue2项目中&#xff09;1.npm安装2.main.js中引入3.开启愉…

WordPress软件下载主题Inpandora

Inpandora&#xff08;中文名为潘多拉&#xff09;是一款基于软件下载站定制的WordPress主题&#xff0c;帮助站长使用WordPress快速搭建一个专业的WordPress软件博客。Inpandora这款WordPress主题可以说是因软件而生&#xff0c;从UI设计到后台设置功能&#xff0c;都充分体现…