STL算法之sort

        STL所提供的各式各样算法中,sort()是最复杂最庞大的一个。这个算法接受两个RandomAccessIterators(随机存取迭代器),然后将区间内的所有元素以渐增方式由小到大重新排列。还有一个版本则是允许用户指定一个仿函数代替operator<作为排序标准。STL的所有关联式容器(associative containers)都拥有自动排序功能(底层结构为RB-tree,见STL关联式容器介绍_stl 关联式容器-CSDN博客),所以不需要用到这个sort算法。至于序列式容器(sequence containers)中的stack,queue和priority-queue都有特别的入口,不允许用户对元素排序。剩下vector、dequeue和list,前两者的迭代器属于RandomAccessIterators,适合使用sort算法,list的迭代器则属于BidirectionalIterators,都不适合使用sort算法。如果要对list或slist排序,应该使用它们自己提供的成员函数sort()。稍后我们便可以看到为什么泛型算法sort()一定要求RandomAccessIterators。

排序有多么重要

        人类生活在一个有序的世界中。没有排序,很多事情无法进行。排过序的数据,特别容易查找。电话簿总是以人名为键值来排序,对人名而言,电话簿是有序的,对电话号码而言,电话簿是无序的。在电话簿里找一个人(从而得到他的电话号码)很容易,但我们能想象再电话簿里头不通过人名查找某个特定的电话号码吗?

        这类情况大量发生在日常生活中。字典需要排序,书籍索引需要排序,磁盘目录需要排序,名片需要排序,图书馆藏需要排序,户籍数据需要排序。任何数据只要你想快速查找,具需要排序。

        犹有进者,排序可能使其他工作更快更轻松。如果你要确定(或找出)一堆数据里头没有有重复的元素,先排序一遍再找,会比闷着头两两比对快快得多。换句话说,许多算法可能因为数据先行排序过而大幅改善效率。排序的成本,成为影响执行时间的关键因素。

        STL算法的sort算法,数据量大时采用Quik Sort,分段递归排序。一旦分段后的数据量小于某个门槛,为了避免Quik Sort的递归调用带来过多额外负担(overhead),就改用Insertion Sort。如果递归层次过深,还会改用Heap Sort参见STL序列式容器之heap(堆)_stl 堆-CSDN博客 。以下分别介绍Quick Sort和Insertion Sort,然后再整合起来介绍STL sort算法。

Insertion Sort

        Insertion Sort以双层循环的形式进行。外循环遍历整个序列,每次迭代决定出一个子区间;内循环遍历子区间,将子区间内的每一个“逆转对(inversion)”倒转过来。所谓“逆转对”是指任何两个迭代器i、j,i<j,而*i>*j。一旦不存在逆转对,序列即排序完毕。这个算法的时间复杂度为O(N^2),说起来并不理想,但是当数据量很少时,却有不错的效果,原因是实现上有一些技巧(稍后源代码可见),而且不像其它比较复杂的排序算法有着诸如递归调用等操作带来的额外负担。下图是Insertion Sort的详细步骤示意:

        图中左下部分的三角形内部,每一行都是有序的序列;每次往有序序列中增加一个元素,依次采用插入到正好使序列依然保持有序状态的方式进行;固而得名插入排序(Insertion Sort)。

        SGI STL的Insert Sort有两个不同的版本,一个使用默认的operator<,另个使用仿函数comp代替。以下列出版本一。由于STL规格并不开放Insert Sort,所以SGI将以下函数的名称都加上了双下划线,表示内部使用。

//版本一
template <class RandomAccessIterator>
void __intertion_sort(RandomAccessIterator first, RandomAccessIterator last) {if (first == last) return ;for (RandomAccessIterator I = first + 1, I != last; ++I) __linear_insert(first, I, value_type(first));
}template <class RandomAccessIterator, class T>
void __linear_insert(RandomAccessIterator  first, RandomAccessIterator last, T*) {T value = *last;if (value < *first) {copy_backward(first, last, last+1); // 当前最后一个元素比原有序序列,最小元素还小*first = value;                     // 将原序列,往后移一个位置,将新的最小元素放置到最前面} else__unguarded_linear_inserrt(last, value);}template <class RandomAccessIterator, class T>
void __unguarded_linear_inserrt(RandomAccessIterator last, T value) {RandomAccessIterator next = last;--next;while(value < *next) { // 新加入的元素比当前元素小,*last = *next;     // 则将当前元素往后挪,否则就再该位置填入新加入的值last = next;--next;}*last = value;
}

        上述函数之所以命名为unguarded_x是因为,一般的Insert Sort在内循环原本需要做两次判断,判断是否相邻两元素使“逆转对”,同时也判断循环是否超过边界。但由于上述所示的代码会导致最小值必然在内循环子区间的最边缘,所以两个判断可合为一个判断,所以成为unguarded_。省下一个判断操作,乍见之下无足轻重,但是在大数据量的情况下,影响还是可观的,毕竟这是一个非常根本的算法核心,在大数据量的情况下(大量调用?),提效会非常惊人。

        稍后出场的几个函数,也有以unguarded_为前缀命名者,同样是在特定情况下,边界条件的检验可以省略(或说已融入特定条件之内)。

Quick Sort

        如果我们拿Insertion Sort来处理大量数据,其O(N^2)的复杂度就令人摇头了。大数据量的情况下有许多更好的排序可供选择。正如其名称所昭示,Quik Sort是目前已知最快的排序法,平均复杂度为O(N LogN),最坏情况下将达到O(N^2)。不过IntroSort(极类似 median-of-three QuickSort的一种排序算法)可将最坏情况推进到O(N LogN)。早期的STL sort算法都采用Quick Sort,SGI STl已改用IntroSort。

        Quick Sort算法可以叙述如下。假设S代表将被排序的序列:

  1. 如果S的元素个数为0或1,结束。
  2. 取S中的任何一个元素,当做枢轴(pivot)v。
  3. 将S分割为L,R两段,使L内的每一个元素都小于或等于v,R内的每一个元素大于或等于v。
  4. 对L,R递归执行Quick Sort

        Quick Sort的精神在于将大区间分割为小区间,分段排序。每一个小区间排序完成后,串接起来的大区间也就完成了排序。最坏的情况下发生在分割(partition)时产生出一个空的子区间--那完全没有达到分割的预期效果。下图说明了Quick Sort的分段排序过程

  Median-of-Three(三点中值)

        注意任何一个元素度可以被选来当做枢轴(pivot),但是其合适与否却影响Quick Sort的效率,为了避免“元素当初输入时不够随机”所带来的恶化效应,最理想最稳当的方式就是取整个序列的头、尾、中央三个位置的元素,以其中值(median)作为枢轴。这种做法称为median-of-three partition,或称为mediun-of-three-QuickSort。为了能够快速取出中央位置的元素,显然随机迭代器必须能随机定位,亦即必须是个RandomAccessIterators。

        以下是SGI STL提供的三点中值决定函数:

template<class T>
inline const T& __median(const T& a, const T& b, const T& c) {if (a < b) if (b < c) // a < b < creturn b;else if (a < c) return c; // a  < b, b >= c, a < celse return a;else if (a < c)    // c> a>= breturn a;else if (b < c)    // a >= b, a>=c, b <creturn c;else return b;
}

Partition(分割)

        分割方法不只一种,以下叙述既简单又有良好成效的做法。令头端迭代器first向尾端移动,尾端迭代器last向头部移动。当*first大于或等于枢轴时就停下来,当*last小于或等于枢轴时也停下来,然后检验两个迭代器是否交错。如果first仍然在左而last仍然在右,就两者元素互换,然后各自调整一个位置(向中央逼近),再继续进行相同的行为。乳沟发现两个迭代器交错了(亦即!(first < last)),表示整个序列已经调整完毕,以此时的first为轴,将序列分为左右两半,左半部分所有元素值都小于或等于枢轴,右半部分所有元素值都大于或等于枢轴。

        下面SGI STL提供的分割函数,其返回值是分割后的有段第一个位置:

template<class RandomAcccessIterator, class T>
RandomAcccessIterator __unguarded_partion(RandomAcccessIterator first,RandomAcccessIterator last,T pivot) {while(true) {while(*first < pivot) ++first;--last;while(pivot < *last) --last;if (!(first < last)) return first;iter_swap(first, last);++first;}
}

下图是分割实例的完整过程:

threshold(阈值)

        面对一个只有十来个元素的小型序列,使用Quick Sort这样复杂而(可能)需要大量运算的排序法,是否划算?不,不划算,在小数据量的情况下,甚至简单如Insert Sort者也可能快过Quick Sort--因为Quick Sort会为了极小的子序列产生许多的函数递归调用。

        鉴于这种情况,适度评估序列的大小,然后决定采用Quick Sort或Insertion Sort,是值得采纳的一种优化措施。然后究竟多小的序列才应该断然改用Insertion Sort?并无定论,5~20都可能导致差不多的结果,实际的最佳值因设备而异。

final insertion sort

        优化措施用不嫌多,只要我们不是贸然行事。如果我们令某个大小以下的序列滞留在"几近排序但尚未竟全功"的子序列做一次完整的排序,其效率一般认为会比“将所有子序列彻底排序”更好。这是以为Insertion Sort在面对“几近排序”的序列时,有很好的表现。

introsort

        不当的枢轴选择,导致不当的分割。导致Quick Sort恶化未O(N^2).David R. Musser于1996年提出易总混合式排序算法:Introspective Sorting(内省式排序),简称Intro Sort,其行为在大部分情况下几乎与median-of-3 Quick Sort 完全相同(当然也一样快)。但是当分割行为有恶化未二次行为的倾向时,能够自我侦测,转而改用Heap Sort,使效率维持在Heap Sort的O(N logN),又比一开始就使用Heap Sort来得好。稍后边可以看到SGI STL源代码中对IntroSort的实现。

SGI STL sort

        下面是SGI STL sort()源代码

template <class RandomAccessIterator>
inline void sort(RandomAccessIterator first, RandomAccessIterator last) {if (first != last) {__introsort_loop(first, last, value_type(first), __lg(last-first)*2);__final_insertion_sort(first, last);}   
}

其中__lg()用来控制分割恶化的情况

// 找出2^k <= n 的最大值k,例:n=7,得k=2;n=20的k=4;n=8,得k=3
template <class Size>
inline Size __lg(Size n) {Size k;for (k = 0; n>1; n >>= 1) ++k;return k;
}

__introsort_loop() 最后一个参数表示递归的最深层次不应超过2*log(N),代码如下:

template <class RandomAccessIterator, class T, class Size>
void __introsort_loop(RandomAccessIterator first, RandomAccessIterator last, T*, Size depth_limit) {while ((last - first) > __stl_threshold) { // __stl_threashold = 16,全局常量if (depth_limit == 0) {partial_sort(first, last, last); // 改用heapsort}   --depth_limit;RandomAccessIterator cut = __unguarded_partition(first, last, T(__median(*first,*(first + (last - first)/2),*(last-1))));// 右半段递归进行sort__introsort_loop(cut, last, value_type(first), depth_limit);last = cut;// 因为重置了last,所以左半段继续进行排序}   
}

        函数一开始判断序列的大小.__stl_threshold是个全局整型常数,定义如下

const int __stl_threshold = 16;

        通过元素个数检验后,再检查分割层次。如果分割层次超过指定值,就改用partital_sort(), 事实上调用的是Heap Sort。

        都通过了这些检验之后,便进入Quik Sort完全相同的程序:以median-of-3方法确定枢轴位置,然后调用__unguarded_partition()找出分割点,然后针对左右段递归进行IntroSort。

        当__introsort_loop()结束,[first, last)内有多个“元素个数少于16”的子序列,每个子序列都有相当程度的排序,但尚未排序(以为元素个数一旦小于__stl_threshold,就被中止进一步的排序操作了)。回到母函数sort(),再进入__final_insertion_sort():

template <RandomAccessIterator>
void __final_insertion_sort(RandomAccessIterator first, RandomAccessIterator last) {if (last - first > __stl_threshold) { // 16__insertion_sort(first, first + __stl_threshold);__unguarded_insertion_sort(first + __stl_threshold, last);} else {__insertion_sort(first, last);}
}

        此函数首先判断元素个数是否大于16.如果答案为否,就调用__insertion_sort()加以处理。如果答案为是,就将[first, last)分割为长度为16的一段子序列,和另一段剩余子序列,再针对两个子序列分别调用__insert_sort()和__unguarded_insertion_sort().前者代码已于先前展示,后者源代码如下:

template <RandomAccessIterator>
inline void __unguarded_insertion_sort(RandomAccessIterator first, RandomAccessIterator last) {__unguarded_insertion_sort_aux(first, last, value_type(first));
}template <RandomAccessIterator>
void __unguarded_insertion_sort_aux(RandomAccessIterator first, RandomAccessIterator last, T*) {for (RandomAccessIterator i = first, i != last; ++i)  __unguarded_linear_insert(i, T(*i));
}

        这就是SGI STL sort算法的完整过程。为了做个比较,我们再列出RW STL sort的部分源代码,RW版本用的是纯粹Quick Sort,不是Intro Sort

template <class RandomAccessIterator>
inline void sort(RandomAccessIterator first, RandomAccessIterator last) {if (!(first == last)) {__quick_sort_loop(first, last);__final_insertion_sort(first, last); //其内兼容于SGI STL完全相同}
}template <class RandomAccessIterator>
inline void __quick_sort_loop(RandomAccessIterator first, RandomAccessIterator last) {__quick_sort_loop_aux(first, last, _RWSTD_VALUE_TYPE(first));
}template <class RandomAccessIterator, class T>
inline void __quick_sort_loop_aux(RandomAccessIterator first, RandomAccessIterator last, T*) {while (last - first > __stl_threshold) {// median-of-3 partitioningRandomAccessIterator cut = __unguarded_partition(first, last, T(__median(*first, *(first + (last - first)/2), *(last - 1))));if (cut - first > last - cut) {__quick_sort_loop(cut, last);    // 较短段以递归方式处理last = cut;} else {__quick_sort_loop(first, cut);    // 较短段以递归方式处理first = cut;}}
}

参考文档《STL源码剖析--侯捷》

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/888473.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解决Tomcat运行时错误:“Address localhost:1099 is already in use”

目录 背景: 过程&#xff1a; 报错的原因&#xff1a; 解决的方法&#xff1a; 总结&#xff1a; 直接结束Java.exe进程&#xff1a; 使用neststat -aon | findstr 1099 命令&#xff1a; 选择建议&#xff1a; 背景: 准备运行Tomcat服务器调试项目时&#xff0c;程序下…

AJAX三、XHR,基本使用,查询参数,数据提交,promise的三种状态,封装-简易axios-获取省份列表 / 获取地区列表 / 注册用户,天气预报

一、XMLHttpRequest基本使用 XMLHttpRequest&#xff08;XHR&#xff09;对象用于与服务器交互。 二、XMLHttpRequest-查询参数 语法: 用 & 符号分隔的键/值对列表 三、XMLHttpRequest-数据提交 核心步骤 : 1. 请求头 设置 Content-Type 2. 请求体 携带 符合要求 的数…

矩阵加法        ‌‍‎‏

矩阵加法 C语言代码C 语言代码Java语言代码Python语言代码 &#x1f490;The Begin&#x1f490;点点关注&#xff0c;收藏不迷路&#x1f490; 输入两个n行m列的矩阵A和B&#xff0c;输出它们的和AB。 输入 第一行包含两个整数n和m&#xff0c;表示矩阵的行数和列数。1 <…

flink-connector-mysql-cdc:01 mysql-cdc础配置代码演示

flink-connector-mysql-cdc&#xff1a; 01 mysql-cdc基础配置代码演示02 mysql-cdc高级扩展03 mysql-cdc常见问题汇总04 mysql-cdc-kafka生产级代码分享05 flink-kafka-doris生产级代码分享06 flink-kafka-hudi生产级代码分享 flink-cdc版本&#xff1a;3.2.0 flink版本&…

ELK的Filebeat

目录 传送门前言一、概念1. 主要功能2. 架构3. 使用场景4. 模块5. 监控与管理 二、下载地址三、Linux下7.6.2版本安装filebeat.yml配置文件参考&#xff08;不要直接拷贝用&#xff09;多行匹配配置过滤配置最终配置&#xff08;一、多行匹配、直接读取日志文件、EFK方案&#…

HTML 添加 文本水印

body,html {margin: 0;height: 100vh;width: 100vw;} // 自定义文案const setting {text: "水印文案", // 水印内容innerDate: true, // 在水印下方增加日期width: 110, // 水印宽度};// 自定义文字水印const watermark (function () {return {build: function (a…

Android平台GB28181设备接入模块如何支持GB28181云端录像补录

技术背景 GB28181 的补录功能是一种用于弥补视频数据缺失的重要机制。在实际的视频监控场景中&#xff0c;由于网络不稳定、设备故障等多种因素&#xff0c;可能会导致视频数据在上云或存储过程中出现缺失&#xff0c;无法保证数据的完整性。GB28181 的补录功能就是为了解决这…

SpringBoot如何使用EasyExcel实现表格导出(简洁快速入门版本)

前言 前面给大家介绍了动态表头的导入&#xff0c;这篇文章给大家介绍如何实现导出 前面给大家介绍了动态表头的导入&#xff0c;我们了解了如何通过EasyExcel灵活地读取结构不固定的Excel文件。这次&#xff0c;我们将目光转向数据导出——即如何将数据以Excel文件的形式输出…

Web 毕设篇-适合小白、初级入门练手的 Spring Boot Web 毕业设计项目:智行无忧停车场管理系统(前后端源码 + 数据库 sql 脚本)

&#x1f525;博客主页&#xff1a; 【小扳_-CSDN博客】 ❤感谢大家点赞&#x1f44d;收藏⭐评论✍ 文章目录 1.0 项目介绍 1.1 项目功能 2.0 用户登录功能 3.0 首页界面 4.0 车辆信息管理功能 5.0 停车位管理功能 6.0 入场登记管理功能 7.0 预约管理功能 8.0 收费规则功能 9.0…

365天深度学习训练营-第P7周:马铃薯病害识别(VGG-16复现)

文为「365天深度学习训练营」内部文章 参考本文所写记录性文章&#xff0c;请在文章开头带上「&#x1f449;声明」 &#x1f37a; 要求&#xff1a; 自己搭建VGG-16网络框架【达成√】调用官方的VGG-16网络框架【达成√】如何查看模型的参数量以及相关指标【达成√】 &#…

芯食代冻干科技研究院:创新与品质并重,推动家用冻干机高质量发展

11月25日,芯食代首届食品冻干前沿与智能化升级创新大会在江苏常州成功举办。本次大会由芯食代冻干科技研究院(江苏)有限公司与芯食代(上海)科技发展有限公司联合主办,云集学界专家教授、商界企业精英,共议家用冻干机的未来创新发展。作为创新大会,芯食代冻干科技研究院也在本次…

项目基于oshi库快速搭建一个cpu监控面板

后端&#xff1a; <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-web</artifactId></dependency><dependency><groupId>com.github.oshi</groupId><artifactId>oshi-…

【数据结构】手搓链表

一、定义 typedef struct node_s {int _data;struct node_s *_next; } node_t;typedef struct list_s {node_t *_head;node_t *_tail; } list_t;节点结构体&#xff08;node_s&#xff09;&#xff1a; int _data;存储节点中的数据struct node_s *_next;&#xff1a;指向 node…

毕设记录_音圈电机及电磁学相关_20241204

前言 提醒&#xff1a; 文章内容为方便作者自己后日复习与查阅而进行的书写与发布&#xff0c;其中引用内容都会使用链接表明出处&#xff08;如有侵权问题&#xff0c;请及时联系&#xff09;。 其中内容多为一次书写&#xff0c;缺少检查与订正&#xff0c;如有问题或其他拓展…

UPLOAD LABS | PASS 10 - 黑名单绕过(Windows . 绕过 - 变体)

关注这个靶场的其它相关笔记&#xff1a;UPLOAD LABS —— 靶场笔记合集-CSDN博客 0x01&#xff1a;过关流程 本关的目标是上传一个 WebShell 到目标服务器上&#xff0c;并成功访问&#xff1a; 通过查看源码&#xff0c;可以发现&#xff0c;本关在之前所有关卡的基础上做了…

【Elasticsearch】实现分布式系统日志高效追踪

&#x1f9d1; 博主简介&#xff1a;CSDN博客专家&#xff0c;历代文学网&#xff08;PC端可以访问&#xff1a;https://literature.sinhy.com/#/literature?__c1000&#xff0c;移动端可微信小程序搜索“历代文学”&#xff09;总架构师&#xff0c;15年工作经验&#xff0c;…

FoldX(FoldX5)的安装流程

下载地址:官网 https://foldxsuite.crg.eu/] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] ] zip解压yasaraPlugin.zip 我将foldx_20241231改为foldx vim ~/.bashrc 将foldx文件所在路径写进PATH vim ~/.bashrc我的…

利用红黑树封装map,和set,实现主要功能

如果不知道红黑树是什么的时候可以去看看这个红黑树 思路 首先我们可以把封装分为两个层面理解&#xff0c;上层代码就是set,和map&#xff0c;底层就是红黑树 就相当于根据红黑树上面套了两个map,set的壳子&#xff0c;像下面这张图一样 对于map和set&#xff0c;map里面存…

分类算法中的样本不平衡问题及其解决方案

一、样本不平衡问题概述 在机器学习的分类任务中&#xff0c;样本不平衡是指不同类别训练样本数量存在显著差异的现象。这一差异会给模型训练和性能评估带来挑战&#xff0c;尤其在处理少数类样本时&#xff0c;模型可能难以有效学习其特征。 以二分类为例&#xff0c;理想情况…

通过HTML Canvas 在图片上绘制文字

目录 前言 一、HTML Canvas 简介 二、准备工作 三、绘制图片 四、绘制文字 五、完整代码 效果演示&#xff1a; 前言 HTML canvas 为我们提供了无限的创意可能性。今天&#xff0c;我们就来探索一下如何通过 HTML canvas 将图片和文字绘制到图片上&#xff0c;创造出独特…