【算法与数据结构】堆排序TOP-K问题

请添加图片描述

文章目录

  • 📝堆排序
  • 🌠 TOP-K问题
  • 🌠造数据
    • 🌉topk找最大
  • 🚩总结


📝堆排序

堆排序即利用堆的思想来进行排序,总共分为两个步骤:

  1. 建堆
    升序:建大堆
    降序:建小堆
  2. 利用堆删除思想来进行排序
    建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 堆排序代码----->升序:建大堆
    堆排序是通过建立一个大顶堆或小顶堆,然后将堆顶元素与末尾元素交换,并重新调整堆结构,这样重复地交换和调整得到有序序列。在升序排序时,我们希望第一个元素是最大的,所以需要建立大顶堆,这样堆顶元素就是当前所有元素中的最大值。
//升序,建大堆
//O(N*logN)//定义一个交换函数,用于交换两个元素的值
void Swap(int* px, int* py)
{int temp = *px;*px = *py;*py = temp;
}
//将以parent为根节点的子树进行向下调整,使其满足大堆的性质
void AdjustDown(int* a, int n, int parent)
{int child = parent * 2 + 1; //左孩子节点的下标while (child < n){//找到左右孩子节点中较大的一个if (child + 1 < n && a[child + 1] > a[child]){child++;}//如果孩子节点的值大于父节点的值,则交换位置if (a[child] > a[parent]){Swap(&a[child], &a[parent]);parent = child;child = parent * 2 + 1;}else{break;}}
}//堆排序函数
void HeapSort(int* a, int n)
{//将数组a直接建堆,使其满足大堆的性质for (int i = (n - 1 - 1) / 2; i >= 0; i--){AdjustDown(a, n, i);}int end = n - 1; //用于记录堆的末尾位置while (end > 0){//将堆顶元素与末尾元素交换位置,即将最大值放到末尾Swap(&a[0], &a[end]);//对除了末尾元素外的部分进行向下调整,使其满足大堆的性质AdjustDown(a, end, 0);end--;}}
int main()
{int a[] = { 3,9,5,2,7,8,10,1,4 };printf("堆升序前\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}//堆升序,建大堆HeapSort(a, sizeof(a) / sizeof(int));printf("\n堆升序后\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}printf("\n");return 0;}

代码运行:
在这里插入图片描述

  1. 堆排序代码----->降序:建小堆
    而在降序排序时,我们希望第一个元素是最小的。如果还建立大顶堆,那么堆顶元素会是最大值,这与我们希望的降序结果不符。所以在降序排序时,我们需要建立一个小顶堆。这样堆顶元素就是当前所有元素中的最小值,和我们希望的降序结果一致。通过每次交换堆顶(最小值)和末尾元素,可以实现数组从小到大排列,也就是降序排序结果。
#include <stdio.h>
// 交换两个元素的值
void Swap(int* px, int* py)
{int temp = *px;*px = *py;*py = temp;
}
// 将以parent为根节点的子树调整为小堆
void AdjustDown(int* a, int n, int parent)
{int child = parent * 2 + 1; // 左孩子节点的下标while (child < n){// 找到左右孩子节点中值较小的节点if (child + 1 < n && a[child + 1] < a[child]){child++;}// 如果子节点的值小于父节点的值,则交换父子节点的值if (a[child] < a[parent]){Swap(&a[child], &a[parent]);parent = child;child = parent * 2 + 1;}else{break;}}
}
// 堆排序
void HeapSort(int* a, int n)
{// 建堆:从最后一个非叶子节点开始,依次向上调整子树为小堆for (int i = (n - 1 - 1) / 2; i >= 0; i--){AdjustDown(a, n, i);}int end = n - 1; // 堆的最后一个元素的下标while (end > 0){// 将堆顶元素(最小元素)与堆的最后一个元素交换位置Swap(&a[0], &a[end]);// 将除了最后一个元素之外的部分重新调整为小堆AdjustDown(a, end, 0);end--;}}
int main()
{int a[] = { 3,9,5,2,7,8,10,1,4 };printf("堆降序前\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}// 使用堆排序进行降序排序HeapSort(a, sizeof(a) / sizeof(int));printf("\n堆降序后\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}printf("\n");return 0;}

在这里插入图片描述

🌠 TOP-K问题

TOP-K问题是数据挖掘和信息检索中的一个重要问题。

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
TOP-K问题是数据挖掘和信息检索中的一个重要问题。

TOP-K问题的含义是:给定一个集合,找出其中值最大或最小的前K个元素。

常见的TOP-K问题有:

  1. 查找文档集合中与查询条件最相关的前K篇文档。这在搜索引擎中很常见。

  2. 从用户评分最高的物品中找出前K个最受欢迎的物品。

  3. 从数据库中找出收入前K高的用户。

  4. 从候选人中找出支持率前K高的候选人,专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。。

TOP-K问题的一般解法包括:

  • 排序法:直接对全集排序,取前K个元素。时间复杂度O(nlogn)
  • 堆排序法:使用小顶堆或大顶堆维护前K个元素,时间复杂度O(nlogk)
  • 选择算法:每次选择当前值最大/小的元素加入结果集,时间复杂度O(nlogk)
  • 空间优化算法:如QuickSelect,找到第K个元素的位置而不是排序全集。
  • 桶排序法:如果值范围有限,可以使用桶排序提升效率。
  • 索引支持的算法:如果有索引支持,可以利用索引更快找出TOP-K,如B+树。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:

  1. 用数据集合中前K个元素来建堆
    前k个最大的元素,则建小堆
    前k个最小的元素,则建大堆
  2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
    将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

🌠造数据

首先我们要TOP-K,那得有数据,先来生成数据,那就生成随机数据到文件。

void CreateNData()
{//造数据int n = 100000;srand(time(0));//使用时间作为随机数种子const char* file = "data.txt";//数据文件名FILE* fin = fopen(file, "w");//打开文件用于写入if (fin == NULL)//检查文件是否打开成功{perror("fopen error");//输出打开错误信息return;}for (int i = 0; i < n; ++i)//循环写入n行数据{int x = (rand() + i) % 1000000;//生成0-999999之间的随机数fprintf(fin, "%d\n", x);//写入一行数据}// 别忘了关闭文件哦fclose(fin);
}

rand()函数产生的随机数范围是0-RAND_MAX,在C/C++标准库中,rand()范围是0到32767
i的范围是0-9999,因为n定义为10000,所以rand()结果加i范围是:0 + 0 = 0,32767 + 99999 =132,766,没有超过1000000,但取余可以实现随机数更均匀地分布在0-999999范围内
在这里插入图片描述

🌉topk找最大

1、用前10个数据建小堆
2、后续数据跟堆顶数据比较,如果比堆顶数据大,就替代堆顶,进堆
在这里插入图片描述

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <stdbool.h>
#include <string.h>
#include <time.h>void Swap(int* px, int* py)
{int tmp = *px;*px = *py;*py = tmp;
}void AdjustDown(int* a, int n, int parent)
{ //a是数组指针,n是数组长度,parent是当前需要下调的父结点索引int child = parent * 2 + 1;//child表示父结点parent的左孩子结点索引,因为是完全二叉堆,可以通过parent和2计算得到while (child < n){//如果左孩子存在if (child + 1 < n && a[child + 1] < a[child]){//如果右孩子也存在,并且右孩子值小于左孩子,则child指向右孩子child++;}if (a[child] < a[parent])//如果孩子结点值小于父结点值,则需要交换{Swap(&a[child], &a[parent]);//交换孩子和父结点parent = child;//父结点下移为当前孩子结点child = parent * 2 + 1;//重新计算新的左孩子结点索引}else{break;}}
}
void topk()
{printf("请输入k->");int k = 0;scanf("%d", &k);const char* file = "data.txt";//打开文件FILE* fout = fopen(file, "r");if (fout == NULL){perror("malloc fail");return;}//临时变量读取文件数据 int val = 0;//分配内存用于保存最小堆int* minheap = (int*)malloc(sizeof(int) * k);if(minheap ==NULL){perror("malloc fail");return;}//初始化堆,读取文件前k个数据构建最小堆for (int i = 0; i < k; i++){fscanf(fout, "%d", &minheap[i]);}//建个小堆for (int i = (k - 1 - 1) / 2; i >=0; i--){AdjustDown(minheap, k, i);}int x = 0;while (fscanf(fout, "%d", &x) != EOF){//读取剩余数据,比对顶的值大,就替换他进堆if (x > minheap[0]){//替换堆顶值,并调用下滤调整堆结构minheap[0] = x;AdjustDown(minheap, k, 0);}}for (int i = 0; i < k; i++){//输出堆中保存的前k个最大值 printf("%d ", minheap[i]);}printf("\n");fclose(fout);}int main()
{CreateNData();topk();
}

输出:
在这里插入图片描述
的确是五个数,怎么验证他是10万个数中最大的那五个数呢?
OK!用记事本打开该文件的data.txt,随机找五个数改大点,比如到百万,再运行,能不能找出这五个数,能就对了。
在这里插入图片描述
再次运行效果图:
在这里插入图片描述


🚩总结

感谢你的收看,如果文章有错误,可以指出,我不胜感激,让我们一起学习交流,如果文章可以给你一个小小帮助,可以给博主点一个小小的赞😘

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/752220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言深度学习-6-模型优化与调试

本教程参考《RDeepLearningEssential》 这是本专栏的最后一篇文章&#xff0c;一路走来&#xff0c;大家应该都可以独立的建立一个自己的神经网络进行特征学习和预测了吧&#xff01; 6.1 缺失值处理 在我们使用大量数据进行建模的时候&#xff0c;缺失值对模型表现的影响非常…

定位及解决OOM

一、定义 内存溢出&#xff1a;OutOfMemoryError&#xff0c;是指因内存不够&#xff0c;导致操作新对象没有剩余空间。会导致频繁fullgc出现STW从而导致性能下降。 内存泄漏&#xff1a;指用malloc或new申请了一块内存&#xff0c;但是没有通过free或delete将内存释放&#…

30.HarmonyOS App(JAVA)鸿蒙系统app多线程任务分发器

HarmonyOS App(JAVA)多线程任务分发器 打印时间&#xff0c;记录到编辑框textfield信息显示 同步分发&#xff0c;异步分发&#xff0c;异步延迟分发&#xff0c;分组任务分发&#xff0c;屏蔽任务分发&#xff0c;多次任务分发 参考代码注释 场景介绍 如果应用的业务逻辑比…

LLM之Alpaca:深入了解大模型Alpaca

博客首发地址&#xff1a;LLM之Alpaca&#xff1a;深入了解大模型Alpaca - 知乎 官方链接&#xff1a;https://crfm.stanford.edu/2023/03/13/alpaca.html官方Git&#xff1a;tatsu-lab/stanford_alpaca官方模型&#xff1a;https://huggingface.co/tatsu-lab/alpaca-7b-wdiff…

React高阶组件详解

文章目录 高阶组件是什么&#xff1f;认识高阶组件编写高阶组件高阶组件实践推荐文章 高阶组件是什么&#xff1f; 高阶组件&#xff08;HOC&#xff09;是 React 中用于复用组件逻辑的一种高级技巧。HOC 自身不是 React API 的一部分&#xff0c;它是一种基于 React 的组合特性…

Android Studio 打包 Maker MV apk 详细步骤

一.使用RPG Make MV 部署项目&#xff0c;获取项目文件夹 这步基本都不会有问题&#xff1a; 二.安装Android Studio 安装过程参考教材就行了&#xff1a; https://blog.csdn.net/m0_62491877/article/details/126832118 但是有的版本面板没有Android的选项&#xff08;勾…

python --阿里云(智能媒体管理/视频点播)

智能媒体服务获取token # alibabacloud_imm202009304.1.0 class Sample(object):智能媒体服务def __init__(self):self.access_key 111self.key_secret 222def weboffice_permission(self):return imm_20200930_models.WebofficePermission(renameFalse,readonlyTrue,histor…

在Linux/Ubuntu/Debian上创建指向文件夹或文件的快捷方式

使用带有“-s”选项的“ln”命令&#xff1a; ln -s 命令创建一个符号链接。 这是完整的语法&#xff1a; ln -s <target> <link_name><target>&#xff1a;这是你要链接到的文件或目录的路径。<link_name>&#xff1a;这是你要创建的符号链接的名称…

关于安卓文件夹压缩和解压(一)zip处理

背景 把文件压里头 把文件夹压里头 相关参考 我之前的一个文章&#xff0c;文件递归复制思路link 思路 如果把单单一个文件压缩&#xff0c;那么恭喜你&#xff0c;不用看这个文章了&#xff0c;因为百度一搜就有不错的答案。 本文主要介绍&#xff0c;如果把整个文件夹压…

描述CSS选择器及其优先级规则

一․描述一下CSS选择器及其优先级规则 CSS选择器是用于指定CSS样式应应用于哪些HTML元素的模式。通过选择器&#xff0c;我们可以定位到特定的元素或元素组&#xff0c;并为它们应用样式。CSS选择器有多种类型&#xff0c;每种类型都有其特定的用途和语法。 以下是几种常见的…

Python数据分析与可视化笔记一 机器学习概述

机器学习是一种从数据当中发现复杂规律&#xff0c;并且利用规律对未来时刻、未知状况进行预测和判定的方法&#xff0c;是当下被认为最有可能实现人工智能的方法之一。 所有数据的集合称为数据集(dataset)&#xff0c;其中每条记录是关于一个事件或对象的描述&#xff0c;称为…

龙芯新世界系统(安同AOCS OS)安装Cinnamon桌面最新版6.0.4

龙芯的新世界系统安同AOCS OS是十分优秀的操作系统&#xff0c;处于纯社区方式运行&#xff0c;她的各组件更新得很及时&#xff0c;很多组件都处于最新的状态&#xff0c;给我们安装使用最新的开源软件提供了很好的基础。由于本人一直使用Cinnamon桌面环境&#xff0c;各方面都…

LM2903BIDR比较器芯片中文资料规格书PDF数据手册参数引脚图功能封装尺寸图

产品概述&#xff1a; M393B 和 LM2903B 器件是业界通用 LM393 和 LM2903 比较器系列的下一代版本。下一代 B 版本比较器具有更低的失调电压、更高的电源电压能力、更低的电源电流、更低的输入偏置电流和更低的传播延迟&#xff0c;并通过专用 ESD 钳位提高了 2kV ESD 性能和输…

【CenterFusion】模型的创建、导入、保存CenterFusion/src/lib/model/model.py

文件内容&#xff1a;CenterFusion/src/lib/model/model.py 文件作用&#xff1a;模型的创建、导入、保存 model.py 具体内容如下&#xff1a; from __future__ import absolute_import from __future__ import division from __future__ import print_functionimport torchv…

【教学类-44-07】20240318 0-9数字描字帖 A4横版整页(宋体、黑体、文鼎虚线体、print dashed 德彪行书行楷)

背景需求: 前文制作了三种字体的A4横版数字描字帖 【教学类-44-06】20240318 0-9数字描字帖 A4横版整页&#xff08;宋体、黑体、文鼎虚线体&#xff09;-CSDN博客【教学类-44-06】20240318 0-9数字描字帖 A4横版整页&#xff08;宋体、黑体、文鼎虚线体&#xff09;https://…

将VSCode添加至右键的菜单栏

懒得bb&#xff0c;直接转发别人的博客&#xff0c;链接 但是我在win11上面弄了之后&#xff0c;除了文件夹其他格式都生效了&#xff0c;只需要在这个路径HKEY_CLASSES_ROOT\Directory\shell重复上面的操作&#xff0c;看Directory就知道是文件夹

担忧关于ChatGPT潜在风险的声音正在增强,但暂停人工智能是否明智?

深度学习算法的风险与挑战&#xff1a;ChatGPT的潜在风险引发关注 引言 随着人工智能技术的快速发展&#xff0c;特别是像ChatGPT这样的大型语言模型的广泛应用&#xff0c;人们对其潜在风险的关注也在不断升温。本文将探讨这些风险&#xff0c;并分析是否应该暂停AI的发展。…

事务、并发、锁机制的实现

配置全局事务 DATABASES {default: {ENGINE: django.db.backends.mysql,NAME: mydb,USER:root,PASSWORD:pass,HOST:127.0.0.1,PORT:3306,ATOMIC_REQUESTS: True, # 全局开启事务&#xff0c;绑定的是http请求响应整个过程# (non_atomic_requests可局部实现不让事务控制)} } …

stable diffusion webui 搭建和初步使用

官方repo: GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI 关于stable-diffusion的介绍&#xff1a;Stable Diffusion&#xff5c;图解稳定扩散原理 - 知乎 一、环境搭建和启动 准备在容器里面搞一下 以 ubuntu22.04 为基础镜像&#xff0c;新建…

UnityShader(十六)凹凸映射

前言&#xff1a; 纹理的一种常见应用就是凹凸映射&#xff08;bump mapping&#xff09;。凹凸映射目的就是用一张纹理图来修改模型表面的法线&#xff0c;让模型看起来更加细节&#xff0c;这种方法不会改变模型原本的顶点位置&#xff08;也就是不会修改模型的形状&#xf…