java.util.ComparableTimSort中的sort()方法简单分析

TimSort算法是一种起源于归并排序和插入排序的混合排序算法,设计初衷是为了在真实世界中的各种数据中能够有较好的性能。

该算法最初是由Tim Peters于2002年在Python语言中提出的。

TimSort 是一个归并排序做了大量优化的版本号。

对归并排序排在已经反向排好序的输入时表现O(n2)的特点做了特别优化。对已经正向排好序的输入降低回溯。对两种情况混合(一会升序。一会降序)的输入处理比較好。

在jdk1.7之后。Arrays类中的sort方法有一个分支推断,当LegacyMergeSort.userRequested为true的情况下,採用legacyMergeSort,否则採用ComparableTimSort。而且在legacyMergeSort的凝视上标明了该方法会在以后的jdk版本号中废弃,因此以后Arrays类中的sort方法将採用ComparableTimSort类中的sort方法。

<span style="font-family:Microsoft YaHei;">public static void sort(Object[] a, int fromIndex, int toIndex) {if (LegacyMergeSort.userRequested)legacyMergeSort(a, fromIndex, toIndex);elseComparableTimSort.sort(a, fromIndex, toIndex);
} </span>
以下是ComparableTimSort的sort方法
<span style="font-family:Microsoft YaHei;">static void sort(Object[] a) {sort(a, 0, a.length);
}static void sort(Object[] a, int lo, int hi) {rangeCheck(a.length, lo, hi);int nRemaining  = hi - lo;if (nRemaining < 2)return;  // Arrays of size 0 and 1 are always sorted// If array is small, do a "mini-TimSort" with no mergesif (nRemaining < MIN_MERGE) {int initRunLen = countRunAndMakeAscending(a, lo, hi);binarySort(a, lo, hi, lo + initRunLen);return;}/*** March over the array once, left to right, finding natural runs,* extending short natural runs to minRun elements, and merging runs* to maintain stack invariant.*/ComparableTimSort ts = new ComparableTimSort(a);int minRun = minRunLength(nRemaining);do {// Identify next runint runLen = countRunAndMakeAscending(a, lo, hi);// If run is short, extend to min(minRun, nRemaining)if (runLen < minRun) {int force = nRemaining <= minRun ? nRemaining : minRun;binarySort(a, lo, lo + force, lo + runLen);runLen = force;}// Push run onto pending-run stack, and maybe mergets.pushRun(lo, runLen);ts.mergeCollapse();// Advance to find next runlo += runLen;nRemaining -= runLen;} while (nRemaining != 0);// Merge all remaining runs to complete sortassert lo == hi;ts.mergeForceCollapse();assert ts.stackSize == 1;
}</span>
(1)传入的待排序数组若小于阈值MIN_MERGE(Java实现中为32。Python实现中为64)。则调用 binarySort,这是一个不包括合并操作的 mini-TimSort

a) 从数组開始处找到一组连接升序或严格降序(找到后翻转)的数
b) Binary Sort:使用二分查找的方法将兴许的数插入之前的已排序数组。binarySort 对数组 a[lo:hi] 进行排序,而且a[lo:start] 是已经排好序的。算法的思路是对a[start:hi] 中的元素。每次使用binarySearch 为它在 a[lo:start] 中找到对应位置,并插入。

(2)開始真正的TimSort过程:

      (2.1) 选取minRun大小,之后待排序数组将被分成以minRun大小为区块的一块块子数组

a) 假设数组大小为2的N次幂,则返回16(MIN_MERGE / 2)
b) 其它情况下,逐位向右位移(即除以2),直到找到介于16和32间的一个数

  • minRun
<span style="font-family:Microsoft YaHei;">private static int minRunLength(int n) {assert n >= 0;int r = 0;      // Becomes 1 if any 1 bits are shifted offwhile (n >= MIN_MERGE) {r |= (n & 1);n >>= 1;}return n + r;}</span>
这个函数依据 n 计算出相应的 natural run 的最小长度。

MIN_MERGE 默觉得32,假设n小于此值,那么返回n 本身。否则会将 n 不断地右移。直到少于 MIN_MERGE,同一时候记录一个 r 值,r 代表最后一次移位n时。n最低位是0还是1。 最后返回 n + r,这也意味着仅仅保留最高的 5 位。再加上第六位。

(2.2)do-while

(2.2.1)找到初始的一组升序数列countRunAndMakeAscending 会找到一个run 。这个run 必须是已经排序的。而且函数会保证它为升序,也就是说,假设找到的是一个降序的。会对其进行翻转。

(2.2.2)若这组区块大小小于minRun,则将兴许的数补足,利用binarySortrun 进行扩展。而且扩展后,run 仍然是有序的。

(2.2.3)当前的 run 位于 a[lo:runLen] ,将其入栈ts.pushRun(lo, runLen);//为兴许merge各区块作准备:记录当前已排序的各区块的大小

(2.2.4)对当前的各区块进行merge,merge会满足下面原则(如果X,Y,Z为相邻的三个区块):

a) 仅仅对相邻的区块merge
b) 若当前区块数仅为2,If X<=Y。将X和Y merge
b) 若当前区块数>=3,If X<=Y+Z。将X和Y merge。直到同一时候满足X>Y+Z和Y>Z

因为要合并的两个 run 是已经排序的,所以合并的时候,有会特别的技巧。如果两个 runrun1,run2 ,先用 gallopRightrun1 里使用 binarySearch 查找run2 首元素 的位置k, 那么 run1k 前面的元素就是合并后最小的那些元素。然后,在run2 中查找run1 尾元素 的位置 len2 ,那么run2len2 后面的那些元素就是合并后最大的那些元素。最后,依据len1len2 大小。调用mergeLo 或者 mergeHi 将剩余元素合并。

(2.2.5) 反复2.2.1 ~ 2.2.4,直到将待排序数组排序完 
(2.2.6) Final Merge:假设此时还有区块未merge,则合并它们

 (3)演示样例

*注意*:为了演示方便,我将TimSort中的minRun直接设置为2,否则我不能用非常小的数组演示。。

。同一时候把MIN_MERGE也改成2(默觉得32),这样避免直接进入binary sort。

初始数组为[7,5,1,2,6,8,10,12,4,3,9,11,13,15,16,14]
=> 寻找连续的降序或升序序列 (2.2.1)。同一时候countRunAndMakeAscending 函数会保证它为升序
[1,5,7] [2,6,8,10,12,4,3,9,11,13,15,16,14]


=> 入栈 (2.2.3)
当前的栈区块为[3]

=> 进入merge循环 (2.2.4)
do not merge由于栈大小仅为1

=> 寻找连续的降序或升序序列 (2.2.1)
[1,5,7] [2,6,8,10,12] [4,3,9,11,13,15,16,14]

=> 入栈 (2.2.3)
当前的栈区块为[3, 5]

=> 进入merge循环 (2.2.4)
merge由于runLen[0]<=runLen[1]
1) gallopRight:寻找run1的第一个元素应当插入run0中哪个位置(”2”应当插入”1”之后),然后就能够忽略之前run0的元素(都比run1的第一个元素小)
2) gallopLeft:寻找run0的最后一个元素应当插入run1中哪个位置(”7”应当插入”8”之前),然后就能够忽略之后run1的元素(都比run0的最后一个元素大)
这样须要排序的元素就仅剩下[5,7] [2,6],然后进行mergeLow
完毕之后的结果:
[1,2,5,6,7,8,10,12] [4,3,9,11,13,15,16,14]

=> 入栈 (2.2.3)
当前的栈区块为[8]
退出当前merge循环由于栈中的区块仅为1

=> 寻找连续的降序或升序序列 (2.2.1)
[1,2,5,6,7,8,10,12] [3,4] [9,11,13,15,16,14]
=> 入栈 (2.2.3)
当前的栈区块大小为[8,2]


=> 进入merge循环 (2.2.4)
do not merge由于runLen[0]>runLen[1]


=> 寻找连续的降序或升序序列 (2.2.1)
[1,2,5,6,7,8,10,12] [3,4] [9,11,13,15,16] [14]


=> 入栈 (2.2.3)
当前的栈区块为[8,2,5]


=>
do not merege run1与run2由于不满足runLen[0]<=runLen[1]+runLen[2]
merge run2与run3由于runLen[1]<=runLen[2]
1) gallopRight:发现run1和run2就已经排好序
完毕之后的结果:
[1,2,5,6,7,8,10,12] [3,4,9,11,13,15,16] [14]


=> 入栈 (2.2.3)
当前入栈的区块大小为[8,7]
退出merge循环由于runLen[0]>runLen[1]


=> 寻找连续的降序或升序序列 (2.2.1)
最后仅仅剩下[14]这个元素:[1,2,5,6,7,8,10,12] [3,4,9,11,13,15,16] [14]


=> 入栈 (2.2.3)
当前入栈的区块大小为[8,7,1]


=> 进入merge循环 (2.2.4)
merge由于runLen[0]<=runLen[1]+runLen[2]
由于runLen[0]>runLen[2],所以将run1和run2先合并。(否则将run0和run1先合并)
1) gallopRight & 2) gallopLeft
这样须要排序的元素剩下[13,15] [14],然后进行mergeHigh
完毕之后的结果:
[1,2,5,6,7,8,10,12] [3,4,9,11,13,14,15,16] 当前入栈的区块为[8,8]


=>
继续merge由于runLen[0]<=runLen[1]
1) gallopRight & 2) gallopLeft
须要排序的元素剩下[5,6,7,8,10,12] [3,4,9,11]。然后进行mergeHigh
完毕之后的结果:
[1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16] 当前入栈的区块大小为[16]


=>
不须要final merge由于当前栈大小为1


=>
结束


參考:

http://www.lifebackup.cn/timsort-java7.html

http://blog.csdn.net/on_1y/article/details/30109975

http://en.wikipedia.org/wiki/Timsort

转载于:https://www.cnblogs.com/lxjshuju/p/7081959.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/269091.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

虚拟化运维工具对金融行业的解决方案

金融行业是一个专业领域&#xff0c;例如如医疗保健&#xff0c;需要以最大化的性能进行无中断运营。任何包括中断或降级在内的性能问题都是完全不可接受的。如果已经中断&#xff0c;后果将会是非常严重的。而明辰智航云安虚拟化网络与虚拟化性能管理系统可以帮助你尽可能的规…

简单说说通讯设备的热设计

从事通讯设备热设计工作8个月了&#xff0c;总体来说对这项工作有了些自己的认识。热设计成为一个专门的岗位在国内还没有多少年的历史&#xff0c;外企中&#xff0c;英特尔、思科、诺基亚、爱立信、山特电子等都有专门的岗位&#xff0c;国内企业&#xff0c;如华为、中兴、联…

使用DSX2-5000 CH测试时选择(+PoE)和(+All)后缀的含义

在测试双绞线布线时&#xff0c;需要在测试仪上设置一些关键的参数来测试永久链路符合行业标准参数&#xff0c;如插入损耗、NEXT、PSNEXT、ACR-N、PSACR-N、ACR-F、PSACR-F和回波损耗。在测试Cat 6A&#xff08;或ISO11801标准的Fa类&#xff09;时&#xff0c;我们还使用PSAN…

bat学习工具

BAT学习工具 最近开始学习批处理&#xff0c;整理了一下以下是3800的教程说明&#xff0c;和一些批处理教程的下载地址&#xff0c;附件是一个bat—exe的好软件VisualBat 1.08的&#xff0c;更新了exe—bat的转换教程到处都是&#xff0c;关键是自己要好好学习。亲密接触批处理…

苹果电脑(Mac)如何进行大小写和中英文的切换

中英文写切换&#xff1a;按一下caps lock键进行切换 大小写切换&#xff1a;长按caps lock键直至灯亮起 终端字体放大&#xff1a;按住command 和

SpringMVC路径匹配规则AntPathMatcher(转)

SpringMVC的路径匹配规则是依照Ant的来的. 实际上不只是SpringMVC,整个Spring框架的路径解析都是按照Ant的风格来的. 在Spring中的具体实现,详情参见 org.springframework.util.AntPathMatcher. 具体规则如下(来自Spring AntPathMatcher源码注释): * {link PathMatcher} implem…

Getting the right Exception Context from a Memory dump Fixed

吃饭回来&#xff0c;看到Share Source CLI团队的rss聚合上面Debug团队的juqiang发了一篇文章&#xff0c;说抓了一个minidump出现了&#xff1a;WARNING: Unable to verify timestamp for mscorwks.dll的错误。上次我在查看一个mini Dump的时候&#xff0c;ntdll.dll好像也出现…

以太网测试工具

以太网是计算机网络的一种局域网技术&#xff0c;多种标准指定了以太网技术的标准&#xff0c;其中包括了物理层、电子信号及基质层协议等多种内容。以太网时目前应用比较广泛的局域网技术。像企业中所用到网络即可成为以太网。那么如果企业中如果网络时长发生延迟、掉帧、断网…

单例模式中饿汉式

写法一&#xff1a; 写法二&#xff1a;

css3 动画的播放、暂停和重新开始

播放 先在keyframes中创建动画&#xff0c;之后把它捆绑到某个选择器&#xff0c;就可以产生动画效果。html <div id"box" class"box"></div> css keyframes mymove {0% {margin-left: 0px;}50% {margin-left: 400px;}100% {margin-left: 0px…

以太网性能测试仪

目前企业办公遇到的首要问题就是网络方面&#xff0c;企业网络中的网络不通、网速慢、丢包、IP地址冲突等各种问题。网络管理人员手里没有趁手的网络故障仪器&#xff0c;解决问题将会非常麻烦。手持式的、口袋型、具备多种测试标准的以太网性能测试仪是先解决企业中网路管理人…

拉斯廷老兄

从前打了一场大仗&#xff0c;大仗结束后&#xff0c;许多士兵被遣散回家。拉斯廷老兄也退役了&#xff0c;他除了一袋干粮和四个金币外一无所有地上路了。圣彼得装成一个可怜的乞丐站在拉斯廷老兄的必经之路上&#xff0c;等他走过来便向他乞讨。拉斯廷老兄回答说&#xff1a;…

极寒极热天气是否可以使用福禄克DSX2-5000网线测试仪工作

当在室外测试网线和光纤时&#xff0c;天气的温度不仅会影响到工作的效率&#xff0c;电缆如果进行拉扯弯折也可能会在安装测试过程中受损。福禄克指定经销商—明辰智航的工程师推荐您了解一下安装测试电缆时的电缆可承受的温度。 在冬天&#xff0c;寒冷的天气致使工作总是不会…

分析uboot中 make xxx_config过程

make xxx_config实质上就是调用了 首先看MKCONFIG&#xff1a; 【注意】SRCTREE源文件下的目录 之后的语句&#xff1a; $(MKCONFIG) $(:_config) arm arm920t EmbedSky NULL s3c2440就相当于执行 #mkconfig xxx arm arm920t EmbedSky NULL s3c2440 #$0 $1 $2 $3 $4 $5 $…

mysql创建索引语句

1:表结构 2:创建索引语句 alter table staffs add index idx_staffs_nameAgePos(NAME,age,pos); 执行后效果

SQL注入法攻击一日通

随着B/S模式应用开发的发展&#xff0c;使用这种模式编写应用程序的程序员也越来越多。但是由于程序员的水平及经验也参差不齐&#xff0c;相当大一部分程序员在编写代码的时候&#xff0c;没有对用户输入数据的合法性进行判断&#xff0c;使应用程序存在安全隐患。用户可以提交…

视频监控存储服务器

现代化社会&#xff0c;无论是安防监控、城市道路监控、IDC机房监控&#xff0c;监控视频都需要多块硬盘进行存储起来。例如像雪亮工程中海量的视频存储到底存储方案是什么&#xff1f;今天航天安网的小编就带你来一探究竟。 雪亮工程是选择了航天安网视频数据智能管理整体解决…

保持饥饿,保持愚蠢

sss 转载于:https://www.cnblogs.com/llljpf/p/7090230.html

网络电话

“宽带电话”电话是一种有别于传统的电话服务。最大的区别在于&#xff0c;它以宽带网线作为通信线路&#xff0c;在不影响您已有的互联网应用的同时&#xff0c;为用户提供优质的电话服务。宽带电话使用非常方便&#xff0c;只需要将电话装置后面的网络接口连接到互联网或者局…