Python Cookbook-5.10 选取序列中最小的第 n个元素

任务

需要根据排名顺序从序列中获得第n个元素(比如,中间的元素,也被称为中值)。如果序列是已经排序的状态,应该使用seq[n],但如果序列还未被排序,那么除了先对整个序列进行排序之外,还有没有更好的方法?

解决方案

如果序列很长,洗牌洗得很充分,而且元素之间的比较开销也大,那么也许还能找到更好的方式。排序的确很快,但不管怎样,它(一个长度为n的充分洗牌的序列)的时间复杂度仍然是 O(nlogn),而时间复杂度为O(n)的取得第n个最小元素的算法也的确是存在的。下面我们给出一个函数来实现此算法:

import random
def select(data,n):#寻找第n个元素(最小的元素是第0个)#创建一个新列表,处理小于0的索引,检查索引的有效性data = list(data)if n < O:n += len(data)if not 0 <= n < len(data):raise ValueError,"can't get rank %d out of %d" %(n,len(data))#主循环,看上去类似于快速排序但不需要递归while True:pivot = random.choice(data)pcount = 0under:over= [ ],[ ]uappend,oappend = under.append,over.appendfor elem in data:if elem < pivot:uappend(elem)elif elem > pivot:oappend(elem)else:pcount += 1numunder = len(under)if n < numunder:data =underelif n < numunder + pcount:return pivotelse:data = overn -= numunder +pcount

讨论

本节解决方案也可用于重复的元素。举个例子,列表[1,1,1,2,3]的中值是1,因为它是将这5个元素按顺序排列之后的第3个。如果由于某些特别的原因,你不想考虑重复而需要缩减这个列表,使得所有元素都是唯一的(比如,通过18.1节提供的方法),可以完成这一步骤之后再回到本节的问题。

输入参数 data 可以是任意有边界的可迭代对象。首先我们对它调用 list 以确保得到可迭代的对象,然后进入持续循环过程。在循环的每一步中,首先随机选出一个轴心元素以轴心元素为基准,将列表切片成两个部分,一个部分“高于”轴心,一个部分“低于”轴心,然后继续在下一轮循环中对列表的这两个部分中的一个进行深入处理,因为我们可以判断第n个元处于哪一个部分,所以另外一个部分就可以丢弃了。这个算法的思想很接近经典的快速排序算法(只不过快速排序无法丢弃任何部分,它必须用递归的方法,或者用一个栈来替换递归,以确保对每个部分都进行了处理)

随机选择轴心使得这个算法对于任意顺序的数据都适用(但不同于原生的快速排序,某些顺序的数据将极大地影响它的速度),这个实现花费大约log2N时间用于调用random.choice。另一个值得注意的是算法统计了选出轴心元素的次数,这是为了在一些特殊情况下仍能够保证较好的性能,比如 data 中可能含有大量的重复数据。

将局部变量列表 under 和 over 的被绑定方法 append 抽取出来,看起来没什么意义,而且还增加了一点小小的复杂性,但实际上,这是Python 中一个非常重要的优化技术。为了保持编译器的简单、直接、可预期性以及健壮性,Python不会将一些恒定的计算移出循环,它也不会“缓存”对方法的查询结果。如果你在内层循环调用 under.append和 over.append,每一轮都会付出开销和代价。如果想把某些事情一次性做好,那么需要自己动手完成。当你考虑优化问题时,你总是应该对比优化前和优化后的效率,以确保优化真正起到了作用。根据我的测试,对于获取range(10000)的第5000个元素这样的任务,去掉优化部分之后,性能下降了50%。虽然增加一点小小的复杂性,但仍然是值得的,毕竟那是50%的性能差异。

关于优化的一个自然的想法是,在循环中调用cmp(elem,pivot),而不是用一些独立的elem<piovt 或 elem>pivot来测试。不幸的是,cmp 不会提高速度;事实上它还有可能会降速,至少当 data的元素是一些基本类型比如数字和字符串的时候,的确是这样。那么,select的性能和下面这个简单方法的性能相比如何呢?

def selsor(data,n):data = list(data)data.sort()return data[n]

在我的计算机上,获取一个3001个整数的充分洗牌的列表的中值,本节解决方案的代码耗时 16ms,而selsor 耗时 13ms,再考虑到sort 在序列部分有序的情况下速度会更快,元素是基本类型且比较操作执行得很快,而且列表长度也不大,所以使用 select 并没有什么优势。将长度增加到30001,这两个方法的性能变得非常接近,都是约170ms。但当我将列表长度修改成 300001,select 终于表现出了优势,它用了2.2s获得了中值,而 selsor 需要 2.5s。

但如果序列中元素的比较操作非常耗时,那么这两个方式刚刚表现出的大致平衡就被彻底打破了,因为这两个方式的最关键的差异就是比较操作执行的次数——select 执行O(n)次,而 selsor 执行O(nlogn)次。举个例子,假如我们需要比较的是某个类的实例,其比较操作的开销相当大(模拟某些四维的坐标点,其前三维坐标通常总是相同的):

class X(obiect):def __init._(self):self.a = self.b = self.c = 23.51self.d = random.random()def _dats(self):return self.a,self.b,self.c,self.ddef __cmp__(self,oth):return cmp(self._dats,oth._dats)

现在,即使只对 201个实例求中值,select就已经表现得比selsor快了。

换句话说,基于列表的 sort 方法的实现的确要简洁得多,实现select 也确实需要多付出一点力气,但如果n足够大而且比较操作的开销也无法忽略的话,select就体现出它的价值了。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/76076.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

列表之链表_C

数据结构&#xff08;邓俊辉&#xff09;&#xff1a;列表及相关概念_listnodeposi-CSDN博客 #include <stdio.h> #include <stdlib.h>// 定义Rank类型为int typedef int Rank;// 定义ListNode结构体 typedef struct ListNode {int data;struct ListNode* pred;st…

0401react中使用css-react-css-仿低代码平台项目

文章目录 1、普通方式-内联使用css2、引入css文件2.1、示例2.2、classnames 3、内联css与引入css文件对比3.1、内联css3.2、 外部 CSS 文件&#xff08;External CSS&#xff09; 4、css module5、sass6、classnames组合scss modules7、css-in-js7.1、CSS-in-JS 的核心特性7.2、…

鸿蒙开发者高级认证编程题库

题目一:跨设备分布式数据同步 需求描述 开发一个分布式待办事项应用,要求: 手机与平板登录同一华为账号时,自动同步任务列表任一设备修改任务状态(完成/删除),另一设备实时更新任务数据在设备离线时能本地存储,联网后自动同步实现方案 // 1. 定义分布式数据模型 imp…

stream流Collectors.toMap(),key值重复问题

文章目录 一、问题二、问题示例三、原因四、解决方法4.1、方案一 一、问题 发现Collectors.toMap的一个坑&#xff0c;若key值重复的时候会抛异常。如&#xff1a; IllegalStateException: Duplicate key 男 二、问题示例 报错示例如下&#xff1a; import lombok.AllArgsC…

未来 AI 发展趋势与挑战(AGI、数据安全、监管政策)

从 ChatGPT 的火爆到国内 DeepSeek、通义千问、百川智能等模型的兴起,AI 正以前所未有的速度走入各行各业。而下一阶段,AI 是否会发展出真正的“通用智能”(AGI)?数据隐私、技术伦理又该如何应对?本文将带你全面洞察未来 AI 的技术趋势与落地挑战。 一、AGI 的曙光:通用…

【微服务】SpringBoot整合LangChain4j 操作AI大模型实战详解

【微服务】SpringBoot整合LangChain4j 操作AI大模型实战详解 一、前言 随着人工智能技术的飞速发展&#xff0c;AI大模型已经在众多领域展现出强大的能力&#xff0c;为业务拓展和商业价值提升带来了新的机遇。SpringBoot作为一款广受欢迎的Java微服务框架&#xff0c;以其简…

一种单脉冲雷达多通道解卷积前视成像方法【论文阅读】

一种单脉冲雷达多通道解卷积前视成像方法-李悦丽-2007 1. 论文的研究目标与实际意义1.1 研究目标1.2 实际问题与产业意义2. 论文提出的思路、方法及模型2.1 多通道解卷积(MCD)技术的核心思想2.1.1 数学模型与公式推导2.1.2 针对单脉冲雷达的改进2.2 方法与传统技术的对比3. 实…

Codeforces Round 1016 (Div. 3)题解

题目地址 https://codeforces.com/contest/2093 锐评 在所有题意都理解正确的情况下&#xff0c;整体难度不算太难。但是偏偏存在F这么恶心的题意&#xff0c;样例都不带解释一下的&#xff0c;根本看不懂题。D题也恶心&#xff0c;在于递归过程的拆分&#xff0c;需要点数学…

【python读取并显示遥感影像】

在Python中读取并显示遥感影像&#xff0c;可以使用rasterio库读取影像数据&#xff0c;并结合matplotlib进行可视化。以下是一个完整的示例代码&#xff1a; import rasterio import matplotlib.pyplot as plt import numpy as np# 打开遥感影像文件 with rasterio.open(path…

怎样使用Python编写的Telegram聊天机器人

怎样使用Python编写的Telegram聊天机器人 代码直接运行可用 以下是对这段代码的详细解释: 1. 导入必要的库 import loggingfrom telegram import Update from telegram.ext import ApplicationBuilder, ContextTypes, CommandHandler, filters, MessageHandler import log…

moviepy学习使用笔记

目录 1. moviepy安装版本选择安装命令2. 使用文档1.0.3文档中文文档写的比较好的学习博客2.x文档1.0.3到2.x快速上手3. 可能遇到的问题3.1 依赖问题3.2 中文显示问题4. 特效示例中文显示的问题1. moviepy安装 版本选择 moviepy有两个主流版本: 1.0.3 和 2.x 目前2.x版本称不…

docker各种清空缓存命令,下载jdk包总失败,执行完好了

清理未使用的镜像&#xff08;推荐&#xff0c;最常用&#xff09;&#xff1a; docker image prune -a 清理所有未使用的数据&#xff08;包括镜像、容器、网络和构建缓存&#xff09;&#xff1a; docker system prune -a 清理所有未使用的数据&#xff0c;包括未使用的卷…

NO.78十六届蓝桥杯备战|数据结构-并查集|双亲表示法|初始化|查询|合并|判断|亲戚|Lake Counting|程序自动分析(C++)

双亲表⽰法 接下来要学习到的并查集&#xff0c;本质上就是⽤双亲表⽰法实现的森林。因此&#xff0c;我们先认识⼀下双亲表⽰法。 在学习树这个数据结构的时&#xff0c;讲到树的存储⽅式有很多种&#xff1a;孩⼦表⽰法&#xff0c;双亲表⽰法、孩⼦双亲表⽰法以及孩⼦兄弟表…

Ubuntu挂载HDD迁移存储PostgreSQL数据

关联博客&#xff1a;windows通用网线连接ubuntu实现ssh登录、桌面控制、文件共享 背景&#xff1a; 在个人ubuntu机器上安装了pgsql&#xff0c;新建了一张表插入了2000w数据用于模拟大批量数据分页查询用&#xff0c;但是发现查询也不慢&#xff08;在公司测试环境查询1700…

Spring MVC与Spring Boot文件上传配置项对比

Spring MVC与Spring Boot文件上传配置项对比 一、Spring MVC配置项&#xff08;基于不同MultipartResolver实现&#xff09; 1. 使用 CommonsMultipartResolver&#xff08;Apache Commons FileUpload&#xff09; Bean public MultipartResolver multipartResolver() {Common…

Android 学习之 Navigation导航

1. Navigation 介绍 Navigation 组件 是 Android Jetpack 的一部分&#xff0c;用于简化应用内导航逻辑&#xff0c;支持 Fragment、Activity 和 Compose 之间的跳转。核心优势&#xff1a; 单 Activity 架构&#xff1a;减少 Activity 冗余&#xff0c;通过 Fragment 或 Com…

Docker Compose 部署Nginx反向代理 tomcat

Nginx 、Tomcat (默认端口8080)》》compose services:nginx:image: nginx:latestcontainer_name: nginxrestart: alwaysports:- 80:80- 8080:8080volumes:# 文件夹会自动创建&#xff0c;但nginx.conf是文件&#xff0c;需要提前创建&#xff0c;否则 会自动创建nginx.conf文件…

数据库7(数据定义语句,视图,索引)

1.数据定义语句 SQL数据定义语言&#xff08;DDL&#xff09;用于定义和管理数据库结构&#xff0c;包括创建、修改和删除 数据库对象。常见的DDL语句包括CREATE、DROP和ALTER。 它的操作的是对象&#xff0c;区分操作数据的语句&#xff1a;INSERT,DELETE,UPDATE 示例&#x…

QML面试笔记--UI设计篇02布局控件

1. QML 中常用的布局控件 1.1. Row1.2. Column1.3. Grid1.4. RowLayout1.5. ColumnLayout1.6. GridLayout1.7. 总结 1. QML 中常用的布局控件 1.1. Row 背景知识&#xff1a;Row 布局用于将子元素水平排列&#xff0c;适合简单的线性布局&#xff0c;如工具栏按钮或表单输入…