【算法与数据结构】堆排序TOP-K问题

请添加图片描述

文章目录

  • 📝堆排序
  • 🌠 TOP-K问题
  • 🌠造数据
    • 🌉topk找最大
  • 🚩总结


📝堆排序

堆排序即利用堆的思想来进行排序,总共分为两个步骤:

  1. 建堆
    升序:建大堆
    降序:建小堆
  2. 利用堆删除思想来进行排序
    建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

  1. 堆排序代码----->升序:建大堆
    堆排序是通过建立一个大顶堆或小顶堆,然后将堆顶元素与末尾元素交换,并重新调整堆结构,这样重复地交换和调整得到有序序列。在升序排序时,我们希望第一个元素是最大的,所以需要建立大顶堆,这样堆顶元素就是当前所有元素中的最大值。
//升序,建大堆
//O(N*logN)//定义一个交换函数,用于交换两个元素的值
void Swap(int* px, int* py)
{int temp = *px;*px = *py;*py = temp;
}
//将以parent为根节点的子树进行向下调整,使其满足大堆的性质
void AdjustDown(int* a, int n, int parent)
{int child = parent * 2 + 1; //左孩子节点的下标while (child < n){//找到左右孩子节点中较大的一个if (child + 1 < n && a[child + 1] > a[child]){child++;}//如果孩子节点的值大于父节点的值,则交换位置if (a[child] > a[parent]){Swap(&a[child], &a[parent]);parent = child;child = parent * 2 + 1;}else{break;}}
}//堆排序函数
void HeapSort(int* a, int n)
{//将数组a直接建堆,使其满足大堆的性质for (int i = (n - 1 - 1) / 2; i >= 0; i--){AdjustDown(a, n, i);}int end = n - 1; //用于记录堆的末尾位置while (end > 0){//将堆顶元素与末尾元素交换位置,即将最大值放到末尾Swap(&a[0], &a[end]);//对除了末尾元素外的部分进行向下调整,使其满足大堆的性质AdjustDown(a, end, 0);end--;}}
int main()
{int a[] = { 3,9,5,2,7,8,10,1,4 };printf("堆升序前\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}//堆升序,建大堆HeapSort(a, sizeof(a) / sizeof(int));printf("\n堆升序后\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}printf("\n");return 0;}

代码运行:
在这里插入图片描述

  1. 堆排序代码----->降序:建小堆
    而在降序排序时,我们希望第一个元素是最小的。如果还建立大顶堆,那么堆顶元素会是最大值,这与我们希望的降序结果不符。所以在降序排序时,我们需要建立一个小顶堆。这样堆顶元素就是当前所有元素中的最小值,和我们希望的降序结果一致。通过每次交换堆顶(最小值)和末尾元素,可以实现数组从小到大排列,也就是降序排序结果。
#include <stdio.h>
// 交换两个元素的值
void Swap(int* px, int* py)
{int temp = *px;*px = *py;*py = temp;
}
// 将以parent为根节点的子树调整为小堆
void AdjustDown(int* a, int n, int parent)
{int child = parent * 2 + 1; // 左孩子节点的下标while (child < n){// 找到左右孩子节点中值较小的节点if (child + 1 < n && a[child + 1] < a[child]){child++;}// 如果子节点的值小于父节点的值,则交换父子节点的值if (a[child] < a[parent]){Swap(&a[child], &a[parent]);parent = child;child = parent * 2 + 1;}else{break;}}
}
// 堆排序
void HeapSort(int* a, int n)
{// 建堆:从最后一个非叶子节点开始,依次向上调整子树为小堆for (int i = (n - 1 - 1) / 2; i >= 0; i--){AdjustDown(a, n, i);}int end = n - 1; // 堆的最后一个元素的下标while (end > 0){// 将堆顶元素(最小元素)与堆的最后一个元素交换位置Swap(&a[0], &a[end]);// 将除了最后一个元素之外的部分重新调整为小堆AdjustDown(a, end, 0);end--;}}
int main()
{int a[] = { 3,9,5,2,7,8,10,1,4 };printf("堆降序前\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}// 使用堆排序进行降序排序HeapSort(a, sizeof(a) / sizeof(int));printf("\n堆降序后\n");for (int i = 0; i < sizeof(a) / sizeof(int); i++){printf("%d ", a[i]);}printf("\n");return 0;}

在这里插入图片描述

🌠 TOP-K问题

TOP-K问题是数据挖掘和信息检索中的一个重要问题。

TOP-K问题:即求数据结合中前K个最大的元素或者最小的元素,一般情况下数据量都比较大。
TOP-K问题是数据挖掘和信息检索中的一个重要问题。

TOP-K问题的含义是:给定一个集合,找出其中值最大或最小的前K个元素。

常见的TOP-K问题有:

  1. 查找文档集合中与查询条件最相关的前K篇文档。这在搜索引擎中很常见。

  2. 从用户评分最高的物品中找出前K个最受欢迎的物品。

  3. 从数据库中找出收入前K高的用户。

  4. 从候选人中找出支持率前K高的候选人,专业前10名、世界500强、富豪榜、游戏中前100的活跃玩家等。。

TOP-K问题的一般解法包括:

  • 排序法:直接对全集排序,取前K个元素。时间复杂度O(nlogn)
  • 堆排序法:使用小顶堆或大顶堆维护前K个元素,时间复杂度O(nlogk)
  • 选择算法:每次选择当前值最大/小的元素加入结果集,时间复杂度O(nlogk)
  • 空间优化算法:如QuickSelect,找到第K个元素的位置而不是排序全集。
  • 桶排序法:如果值范围有限,可以使用桶排序提升效率。
  • 索引支持的算法:如果有索引支持,可以利用索引更快找出TOP-K,如B+树。

对于Top-K问题,能想到的最简单直接的方式就是排序,但是:如果数据量非常大,排序就不太可取了(可能数据都不能一下子全部加载到内存中)。最佳的方式就是用堆来解决,基本思路如下:

  1. 用数据集合中前K个元素来建堆
    前k个最大的元素,则建小堆
    前k个最小的元素,则建大堆
  2. 用剩余的N-K个元素依次与堆顶元素来比较,不满足则替换堆顶元素
    将剩余N-K个元素依次与堆顶元素比完之后,堆中剩余的K个元素就是所求的前K个最小或者最大的元素。

🌠造数据

首先我们要TOP-K,那得有数据,先来生成数据,那就生成随机数据到文件。

void CreateNData()
{//造数据int n = 100000;srand(time(0));//使用时间作为随机数种子const char* file = "data.txt";//数据文件名FILE* fin = fopen(file, "w");//打开文件用于写入if (fin == NULL)//检查文件是否打开成功{perror("fopen error");//输出打开错误信息return;}for (int i = 0; i < n; ++i)//循环写入n行数据{int x = (rand() + i) % 1000000;//生成0-999999之间的随机数fprintf(fin, "%d\n", x);//写入一行数据}// 别忘了关闭文件哦fclose(fin);
}

rand()函数产生的随机数范围是0-RAND_MAX,在C/C++标准库中,rand()范围是0到32767
i的范围是0-9999,因为n定义为10000,所以rand()结果加i范围是:0 + 0 = 0,32767 + 99999 =132,766,没有超过1000000,但取余可以实现随机数更均匀地分布在0-999999范围内
在这里插入图片描述

🌉topk找最大

1、用前10个数据建小堆
2、后续数据跟堆顶数据比较,如果比堆顶数据大,就替代堆顶,进堆
在这里插入图片描述

#include <stdio.h>
#include <stdlib.h>
#include <assert.h>
#include <stdbool.h>
#include <string.h>
#include <time.h>void Swap(int* px, int* py)
{int tmp = *px;*px = *py;*py = tmp;
}void AdjustDown(int* a, int n, int parent)
{ //a是数组指针,n是数组长度,parent是当前需要下调的父结点索引int child = parent * 2 + 1;//child表示父结点parent的左孩子结点索引,因为是完全二叉堆,可以通过parent和2计算得到while (child < n){//如果左孩子存在if (child + 1 < n && a[child + 1] < a[child]){//如果右孩子也存在,并且右孩子值小于左孩子,则child指向右孩子child++;}if (a[child] < a[parent])//如果孩子结点值小于父结点值,则需要交换{Swap(&a[child], &a[parent]);//交换孩子和父结点parent = child;//父结点下移为当前孩子结点child = parent * 2 + 1;//重新计算新的左孩子结点索引}else{break;}}
}
void topk()
{printf("请输入k->");int k = 0;scanf("%d", &k);const char* file = "data.txt";//打开文件FILE* fout = fopen(file, "r");if (fout == NULL){perror("malloc fail");return;}//临时变量读取文件数据 int val = 0;//分配内存用于保存最小堆int* minheap = (int*)malloc(sizeof(int) * k);if(minheap ==NULL){perror("malloc fail");return;}//初始化堆,读取文件前k个数据构建最小堆for (int i = 0; i < k; i++){fscanf(fout, "%d", &minheap[i]);}//建个小堆for (int i = (k - 1 - 1) / 2; i >=0; i--){AdjustDown(minheap, k, i);}int x = 0;while (fscanf(fout, "%d", &x) != EOF){//读取剩余数据,比对顶的值大,就替换他进堆if (x > minheap[0]){//替换堆顶值,并调用下滤调整堆结构minheap[0] = x;AdjustDown(minheap, k, 0);}}for (int i = 0; i < k; i++){//输出堆中保存的前k个最大值 printf("%d ", minheap[i]);}printf("\n");fclose(fout);}int main()
{CreateNData();topk();
}

输出:
在这里插入图片描述
的确是五个数,怎么验证他是10万个数中最大的那五个数呢?
OK!用记事本打开该文件的data.txt,随机找五个数改大点,比如到百万,再运行,能不能找出这五个数,能就对了。
在这里插入图片描述
再次运行效果图:
在这里插入图片描述


🚩总结

感谢你的收看,如果文章有错误,可以指出,我不胜感激,让我们一起学习交流,如果文章可以给你一个小小帮助,可以给博主点一个小小的赞😘

请添加图片描述

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/752220.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

R语言深度学习-6-模型优化与调试

本教程参考《RDeepLearningEssential》 这是本专栏的最后一篇文章&#xff0c;一路走来&#xff0c;大家应该都可以独立的建立一个自己的神经网络进行特征学习和预测了吧&#xff01; 6.1 缺失值处理 在我们使用大量数据进行建模的时候&#xff0c;缺失值对模型表现的影响非常…

定位及解决OOM

一、定义 内存溢出&#xff1a;OutOfMemoryError&#xff0c;是指因内存不够&#xff0c;导致操作新对象没有剩余空间。会导致频繁fullgc出现STW从而导致性能下降。 内存泄漏&#xff1a;指用malloc或new申请了一块内存&#xff0c;但是没有通过free或delete将内存释放&#…

30.HarmonyOS App(JAVA)鸿蒙系统app多线程任务分发器

HarmonyOS App(JAVA)多线程任务分发器 打印时间&#xff0c;记录到编辑框textfield信息显示 同步分发&#xff0c;异步分发&#xff0c;异步延迟分发&#xff0c;分组任务分发&#xff0c;屏蔽任务分发&#xff0c;多次任务分发 参考代码注释 场景介绍 如果应用的业务逻辑比…

LLM之Alpaca:深入了解大模型Alpaca

博客首发地址&#xff1a;LLM之Alpaca&#xff1a;深入了解大模型Alpaca - 知乎 官方链接&#xff1a;https://crfm.stanford.edu/2023/03/13/alpaca.html官方Git&#xff1a;tatsu-lab/stanford_alpaca官方模型&#xff1a;https://huggingface.co/tatsu-lab/alpaca-7b-wdiff…

Android Studio 打包 Maker MV apk 详细步骤

一.使用RPG Make MV 部署项目&#xff0c;获取项目文件夹 这步基本都不会有问题&#xff1a; 二.安装Android Studio 安装过程参考教材就行了&#xff1a; https://blog.csdn.net/m0_62491877/article/details/126832118 但是有的版本面板没有Android的选项&#xff08;勾…

龙芯新世界系统(安同AOCS OS)安装Cinnamon桌面最新版6.0.4

龙芯的新世界系统安同AOCS OS是十分优秀的操作系统&#xff0c;处于纯社区方式运行&#xff0c;她的各组件更新得很及时&#xff0c;很多组件都处于最新的状态&#xff0c;给我们安装使用最新的开源软件提供了很好的基础。由于本人一直使用Cinnamon桌面环境&#xff0c;各方面都…

LM2903BIDR比较器芯片中文资料规格书PDF数据手册参数引脚图功能封装尺寸图

产品概述&#xff1a; M393B 和 LM2903B 器件是业界通用 LM393 和 LM2903 比较器系列的下一代版本。下一代 B 版本比较器具有更低的失调电压、更高的电源电压能力、更低的电源电流、更低的输入偏置电流和更低的传播延迟&#xff0c;并通过专用 ESD 钳位提高了 2kV ESD 性能和输…

【教学类-44-07】20240318 0-9数字描字帖 A4横版整页(宋体、黑体、文鼎虚线体、print dashed 德彪行书行楷)

背景需求: 前文制作了三种字体的A4横版数字描字帖 【教学类-44-06】20240318 0-9数字描字帖 A4横版整页&#xff08;宋体、黑体、文鼎虚线体&#xff09;-CSDN博客【教学类-44-06】20240318 0-9数字描字帖 A4横版整页&#xff08;宋体、黑体、文鼎虚线体&#xff09;https://…

stable diffusion webui 搭建和初步使用

官方repo: GitHub - AUTOMATIC1111/stable-diffusion-webui: Stable Diffusion web UI 关于stable-diffusion的介绍&#xff1a;Stable Diffusion&#xff5c;图解稳定扩散原理 - 知乎 一、环境搭建和启动 准备在容器里面搞一下 以 ubuntu22.04 为基础镜像&#xff0c;新建…

UnityShader(十六)凹凸映射

前言&#xff1a; 纹理的一种常见应用就是凹凸映射&#xff08;bump mapping&#xff09;。凹凸映射目的就是用一张纹理图来修改模型表面的法线&#xff0c;让模型看起来更加细节&#xff0c;这种方法不会改变模型原本的顶点位置&#xff08;也就是不会修改模型的形状&#xf…

数据结构之顺序存储-顺序表的基本操作c/c++(创建、初始化、赋值、插入、删除、查询、替换、输出)

学习参考博文&#xff1a;http://t.csdnimg.cn/Qi8DD 学习总结&#xff0c;同时更正原博主在顺序表中插入元素的错误。 数据结构顺序表——基本代码实现&#xff08;使用工具&#xff1a;VS2022&#xff09;&#xff1a; #define _CRT_SECURE_NO_WARNINGS #include <stdi…

gitlab cicd问题整理

1、docker设置数据目录&#xff1a; 原数据目录磁盘空间不足&#xff0c;需要更换目录&#xff1a; /etc/docker/daemon.json //写入/etc/docker/daemon.json {"data-root": "/data/docker" } 2、Dockerfile中ADD指令不生效 因为要ADD的文件被.docker…

【计算机网络】什么是http?

​ 目录 前言 1. 什么是HTTP协议&#xff1f; 2. 为什么使用HTTP协议&#xff1f; 3. HTTP协议通信过程 4. 什么是url&#xff1f; 5. HTTP报文 5.1 请求报文 5.2 响应报文 6. HTTP请求方式 7. HTTP头部字段 8. HTTP状态码 9. 连接管理 长连接与短连接 管线化连接…

Gin 框架中实现路由的几种方式介绍

本文将为您详细讲解 Gin 框架中实现路由的几种方式&#xff0c;并给出相应的简单例子。Gin 是一个高性能的 Web 框架&#xff0c;用于构建后端服务。在 Web 应用程序中&#xff0c;路由是一种将客户端请求映射到特定处理程序的方法。以下是几种常见的路由实现方式&#xff1a; …

JavaScript | 检测文档在垂直方向已滚动的像素值用pageYOffset在webstorm上显示弃用了,是否应该继续使用?还是用其他替代?

在学习JavaScript的时候&#xff0c;深入学习时会遇到一些实际案例需要检测文档在垂直方向已滚动的像素值。 例如&#xff0c;当前页面内容很多&#xff0c;我想要滚动鼠标滑轮或者拖拽滚动条来浏览网页下面的内容。这时候一动滚动条&#xff0c;一些绝对固定的盒子却想要随着…

【Kubernetes】k8s删除master节点后重新加入集群

目录 前言一、思路二、实战1.安装etcdctl指令2.重置旧节点的k8s3.旧节点的的 etcd 从 etcd 集群删除4.在 master03 上&#xff0c;创建存放证书目录5.把其他控制节点的证书拷贝到 master01 上6.把 master03 加入到集群7.验证 master03 是否加入到 k8s 集群&#xff0c;检查业务…

Unity触发器的使用

1.首先建立两个静态精灵&#xff08;并给其中一个物体添加"jj"标签&#xff09; 2.添加触发器 3.给其中一个物体添加刚体组件&#xff08;如果这里是静态的碰撞的时候将不会触发效果&#xff0c;如果另一个物体有刚体可以将它移除&#xff0c;或者将它的刚体属性设置…

文件的基础

一、文件 什么是文件 文件流&#xff1a; 一、1、文件的相关操作 创建文件的三种方式&#xff1a; public class FileCreate {public static void main(String[] args) {}//方式1 new File(String pathname)Testpublic void create01() {String filePath "e:\\news1.…

C语言-memcpy(不重复地址拷贝 模拟实现)

memcpy&#xff08;不重复地址拷贝&#xff09; 语法格式 在C语言中&#xff0c;memcpy 是一个标准库函数&#xff0c;用于在内存之间复制数据。它的原型定义在 <string.h> 头文件中。memcpy 的语法格式如下&#xff1a; c void *memcpy(void *destination, const voi…

健身·健康行业Web3新尝试:MATCHI

随着区块链技术进入主流&#xff0c;web3 运动已经开始彻底改变互联网&#xff0c;改写从游戏到金融再到艺术的行业规则。现在&#xff0c;MATCHI的使命是颠覆健身行业。 MATCHI是全球首个基于Web3的在线舞蹈健身游戏和全球首个Web3舞蹈游戏的发起者&#xff0c;注册于新加坡&a…