C++高效集合数据结构设计

绪论

在复杂算法实现过程中我们经常会需要一个高效的集合数据结构,支持常数级别的增、删、查,以及随机返回、遍历,最好还能够支持交集、并集、子集操作

哈希集合实现

大家可能很快想到unordered_setunordered_set由于底层是哈希表,所以自身就支持常数级别的增、删、查,虽然不支持常数级别的随机返回,但是可以很简单地实现一个O(n)的随机返回。于是我们可以很快实现一个好用的Set数据结构:


头文件Set.h

// Copyright(C), Edward-Elric233
// Author: Edward-Elric233
// Version: 1.0
// Date: 2022/6/27
// Description: 封装unordered_set实现支持交集、并集的set
#ifndef P_CENTER_SET_H
#define P_CENTER_SET_H#include <unordered_set>
#include <vector>
#include <iostream>namespace edward {class Set {std::unordered_set<int> set_;
public:Set() = default;~Set() = default;explicit Set(const std::vector<int> &arr):set_(arr.begin(), arr.end()) {}void insert(int x) {set_.insert(x);}void erase(int x) {set_.erase(x);}int size() const {return set_.size(); //size_t -> int}bool empty() const {return set_.empty();}bool exist(int x) const {return set_.count(x) > 0;}const std::unordered_set<int>& getSet() const {return set_;}int getRandom() const;const Set& operator&= (const Set& rhs);const Set& operator|= (const Set& rhs);bool operator<= (const Set& rhs) const;   //check if it's a subset of the right-hand side.friend Set operator& (const Set& lhs, const Set& rhs);friend Set operator| (const Set& lhs, const Set& rhs);friend std::ostream& operator<< (std::ostream &os, const Set& rhs);
};Set operator& (const Set& lhs, const Set& rhs);
Set operator| (const Set& lhs, const Set& rhs);
std::ostream& operator<< (std::ostream &os, const Set& rhs);}#endif //P_CENTER_SET_H

实现文件Set.cpp

// Copyright(C), Edward-Elric233
// Author: Edward-Elric233
// Version: 1.0
// Date: 2022/6/27
// Description: 
#include "Set.h"
#include "utils.h"namespace edward {const Set& Set::operator&=(const Set &rhs) {for (auto iter = set_.begin(); iter != set_.end(); ) {if (rhs.set_.count(*iter) == 0) {set_.erase(iter++);} else {++iter;}}return *this;
}const Set& Set::operator|=(const Set &rhs) {for (auto x : rhs.set_) {insert(x);}return *this;
}bool Set::operator<=(const Set &rhs) const {//check if it's a subset of the right-hand side.for (auto x : set_) {if (!rhs.exist(x)) return false;}return true;
}Set operator& (const Set& lhs, const Set& rhs) {if (lhs.size() > rhs.size()) {return operator&(rhs, lhs);} else {//lhs.size() <= rhs.size()Set ans;for (auto x : lhs.set_) {if (rhs.set_.count(x) > 0) {ans.insert(x);}}return ans;}
}
Set operator| (const Set& lhs, const Set& rhs) {//按秩合并if (lhs.size() > rhs.size()) {return operator|(rhs, lhs);} else {//lhs.size() <= rhs.size()Set ans = rhs;return ans |= lhs;}
}std::ostream& operator<< (std::ostream &os, const Set& rhs) {for (auto x : rhs.set_) {os << x << " ";}return os;
}int Set::getRandom() const {int idx = Random::rand(size());auto iter = set_.begin();while (idx--) ++iter;return *iter;
}}

标记数组实现

使用哈希表其实帮助我们解决了常数插入删除的问题,但是当我们尤其要求集合的高效时使用哈希表仍然有比较高的复杂度常数。这就要求我们使用空间换时间的思想:直接用数组进行哈希,每个元素值本身就是自己在数组中的下标(值到下标的哈希映射为:x⟶xx\longrightarrow xxx)。这种哈希毋庸置疑是最快的,因为根本不需要进行运算,但是我们存在无法遍历和随机返回的问题,为了解决这个问题,我们再用一个辅助的数组存储值,而标记数组中则存储的是值在辅助数组中的下标,只要我们能够保证元素在辅助数组中是紧凑的,那么就可以实现遍历和随机返回,并且随机返回是O(1)的。
这种实现能够满足我们绝大多数需求,但是缺点也是显而易见的:空间复杂度太高,每个集合的空间复杂度固定地为集合元素的值域的大小,当我们元素的值域不是太大的时候,我们就可以使用这种集合实现,否则就只能使用上面的哈希集合。


头文件RandomSet.h

// Copyright(C), Edward-Elric233
// Author: Edward-Elric233
// Version: 1.0
// Date: 2022/7/4
// Description: 
#ifndef P_CENTER_RANDOMSET_H
#define P_CENTER_RANDOMSET_H#include <vector>
#include "utils.h"namespace edward {class RandomSet {std::vector<int> pos_, nums_;
public:explicit RandomSet(int n): pos_(n, -1) {nums_.reserve(n);}void insert(int x) {pos_[x] = nums_.size();nums_.push_back(x);}void erase(int x) {nums_[pos_[x]] = nums_.back();pos_[nums_.back()] = pos_[x];pos_[x] = -1;nums_.pop_back();}int size() const {return nums_.size(); //size_t -> int}bool empty() const {return nums_.empty();}bool exist(int x) const {return pos_[x] != -1;}const std::vector<int>& getSet() const {return nums_;}int getRandom() const {return nums_[Random::rand(nums_.size())];}friend std::ostream& operator<< (std::ostream& os, const RandomSet& randomSet);
};std::ostream& operator<< (std::ostream& os, const RandomSet& randomSet);}#endif //P_CENTER_RANDOMSET_H

实现文件RandomSet.cpp

// Copyright(C), Edward-Elric233
// Author: Edward-Elric233
// Version: 1.0
// Date: 2022/7/4
// Description: 
#include "RandomSet.h"namespace edward {std::ostream& operator<< (std::ostream& os, const RandomSet& randomSet) {for (auto x : randomSet.nums_) {os << x << " ";}return os;
}}

测试文件test.cpp

// Copyright(C), Edward-Elric233
// Author: Edward-Elric233
// Version: 1.0
// Date: 2022/6/27
// Description: 
#include "test.h"
#include "Set.h"
#include "utils.h"
#include "RandomSet.h"namespace edward {void test_Set() {/*edward::Set a({1,2}), b({3,4,5});//a.insert(4);print("a.size():", a.size());print("a & b:", a & b);print("a | b:", a | b);//print("a &= b:", a &= b);print("a |= b:", a |= b);*/
}void test_RandomSet() {RandomSet randomSet(10);randomSet.insert(0);randomSet.insert(1);randomSet.insert(2);print(randomSet);randomSet.erase(1);print(randomSet);print(randomSet.size());randomSet.erase(2);randomSet.erase(0);randomSet.insert(9);print(randomSet);
}void test_Set_efficiency() {constexpr int MAXN = 1000000;Timer timer_Set;edward::Set set;for (int i = 0; i < MAXN; ++i) {set.insert(i);}for (int i = 0; i < MAXN; i += 2) {set.erase(i);}for (int i = 0; i < MAXN; i += 2) {set.insert(i);}print("Set.size() =", set.size());timer_Set("Set:");Timer timer_RandomSet;edward::RandomSet randomSet(MAXN);for (int i = 0; i < MAXN; ++i) {randomSet.insert(i);}for (int i = 0; i < MAXN; i += 2) {randomSet.erase(i);}for (int i = 0; i < MAXN; i += 2) {randomSet.insert(i);}print("RandomSet.size() =", randomSet.size());timer_RandomSet("RandomSet:");
}}

其中print是我自己实现的打印可变参模板函数,Timer类是计时器,实现文件放在文章末尾。
测试结果如下:

Set.size() = 1000000
Set: 0.522428 s
RandomSet.size() = 1000000
RandomSet: 0.0637485 s

我们可以看出,使用数组实现的集合虽然存在大小的限制,但是操作平均快一个量级。对于我们需要设计高效算法的场合,我们可以使用后者。大家可能注意到我没有在第二种实现RandomSet中重载集合操作,这是因为如果已经需要考虑优化常数的话,那么往往也不允许实现一个完整的集合操作(交集、并集、子集),而是要求用户具体地手动实现,并根据实际情况进行优化。

代码中的utils头文件实现了printTimer等工具函数和类,详见博客:C++ 工具函数库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/383510.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

C++ 工具函数库

在写一些大型项目的过程中经常需要一些工具函数&#xff0c;例如获取随机数、计时器、打印函数、重要常量&#xff08;如最大值&#xff09;、信号与槽等&#xff0c;由于每一个工程都自己手动实现一个实在是太傻&#xff0c;我将其总结放入一个文件中。 utils.h // Copyright…

muduo网络库使用入门

muduo网络库介绍 muduo网络库是陈硕大神开发的基于主从Reactor模式的&#xff0c;事件驱动的高性能网络库。 网络编程中有很多是事务性的工作&#xff0c;使用muduo网络库&#xff0c;用户只需要填上关键的业务逻辑代码&#xff0c;并将回调注册到框架中&#xff0c;就可以实…

C++ map/unordered_map元素类型std::pair<const key_type, mapped_type>陷阱

在开发的过程中需要遍历一个unordered_map然后把他的迭代器传给另一个对象&#xff1a; class A; class B { public:void deal(const std::pair<int, A>& item); }; std::unordered_map<int, A> mp; B b; for (auto &pr : mp) {b.deal(pr); }在我的项目中…

Ubuntu install ‘Bash to dock‘

绪论 在Ubuntu环境搭建这篇博客中记录了使用Dash To Dock来配置Ubuntu的菜单项&#xff0c;使得实现macOS一样的效果。为了配置新电脑的环境&#xff0c;我还是想安装这个软件。但是如今在Ubuntu Software中已经找不到这个软件了&#xff0c;我在网上借鉴了一些博客的经验才得…

Leetcode第309场周赛

Date: September 4, 2022 Difficulty: medium Rate by others: ⭐⭐⭐⭐ Time consuming: 1h30min 题目链接 竞赛 - 力扣 (LeetCode) 题目解析 2399. 检查相同字母间的距离 class Solution {public:bool checkDistances(string s, vector<int>& distance) {vec…

C++ 模板函数、模板类:如果没有被使用就不会被实例化

C中如果一个模板函数没有使用过&#xff0c;那么其局部静态变量都不会被实例化&#xff1a; class A { public:A() {edward::print("A ctor");} };template<typename T> void test() {static A a; }int main() {test<int>(); //如果注释掉则不会有输出r…

C++ 条件变量的使用

绪论 并发编程纷繁复杂&#xff0c;其中用于线程同步的主要工具——条件变量&#xff0c;虽然精悍&#xff0c;但是要想正确灵活的运用却并不容易。 对于条件变量的理解有三个难点&#xff1a; 为什么wait函数需要将解锁和阻塞、唤醒和上锁这两对操作编程原子的&#xff1f;为…

C++Primer学习笔记:第1章 开始

本博客为阅读《C Primer》&#xff08;第5版&#xff09;的读书笔记 ps:刚开始的时候我将所有的笔记都放在一篇博客中&#xff0c;等看到第六章的时候发现实在是太多了&#xff0c;导致我自己都不想看&#xff0c;为了日后回顾&#xff08;不那么有心理压力&#xff09;&#…

【ubuntu】ubuntu14.04上安装搜狗输入法

** 在ubuntu14.04.4 desktop 64amd版本上安装sogou输入法 ** 0.换安装源为中国源&#xff08;可选&#xff0c;下载会快些&#xff09; 1.搭fcitx环境 2.安装sogou for linux 详细步骤&#xff1a; 因为sogou中文输入法基于fcitx(Free Chinese Input Toy for X),需要先搭环境…

【ubuntu】ubuntu下用make编译程序报错找不到openssl/conf.h

ubuntu下用make编译程序报错找不到openssl/conf.h 安装libssl-dev:i386&#xff0c;sudo apt-get install libssl-dev:i386 看好版本&#xff0c;如果不加i386默认下载的是32位&#xff0c;用ln命令连接过去也还是用不了的!libssl.dev安装好后&#xff0c;用find / -name libs…

【ubuntu】ubuntu如何改变系统用户名

ubuntu如何改变系统用户名 方法1&#xff1a;修改现有用户名 方法2&#xff1a;创建新用户&#xff0c;删掉旧用户 方法1&#xff1a; * *—&#xff01;&#xff01;&#xff01;有博客说要先改密码&#xff0c;再改用户名&#xff0c;否则会出现无法登陆状况&#xff01;&…

什么是signal(SIGCHLD, SIG_IGN)函数

什么是signal(SIGCHLD, SIG_IGN)函数 在进行网络编程时候遇到这个函数的使用&#xff0c;自己学习结果如下&#xff0c;有不对请帮忙指正:) signal(SIGCHLD, SIG_IGN)打开manpage康一康~ sighandler_t signal ( int signum, sighandler_t handler );参数1 int signum: 就是…

ssh连接不上linux虚拟机

ssh连接不上linux虚拟机 1.开启ssh服务 linux虚拟机下命令行输入&#xff1a; start service ssh如果显示没有ssh&#xff0c;就下面两个试一试哪一个ok&#xff0c;安装一下ssh&#xff1a; sudo apt-get install openssh-server sudo apt-get install sshd2.还有人说可能是…

没写client,想先测试server端怎么办?

没写client&#xff0c;想先测试server端怎么办&#xff1f; 办法&#xff1a; 1.先打开终端./server&#xff0c;运行起来server 2.再开一个终端&#xff0c; 输入nc 127.0.0.1 8888 回车&#xff08;这里port号要和server里边设置的一致&#xff0c;127.0.0.1是和本机的测试…

【报错解决】linux网络编程报错storage size of ‘serv_addr’ isn’t known解决办法

linux网络编程报错storage size of ‘serv_addr’ isn’t known解决办法 报错如下&#xff1a; server.c:18:21: error: storage size of ‘serv_addr’ isn’t known struct sockaddr_in serv_addr, clit_addr; ^server.c:18:32: error: storage size of ‘clit_addr’ isn’…

【c】写头文件要加#ifndef,#define, #endif

头文件首位 编写.h时&#xff0c; 最好加上如下&#xff0c;用来防止重复包含头文件&#xff1a; 例如&#xff1a; 要编写头文件test.h 在头文件开头写上两行&#xff1a;#ifndef _TEST_H#define _TEST_H// 文件名的大写#endif头文件结尾写上一行&#xff1a;#endif这样做是为…

【c】【报错解决】incompatible implicit declaration

【报错解决】incompatible implicit declaration 背景; 1.自己封装的函数wrap.c包含&#xff1a; #include "wrap.h"2.主函数调用如下&#xff1a; #include <stdio.h> #include <stdlib.h> ... #include <errno.h> #include "wrap.h"…

【ubuntu】vim语法高亮设置无效

如果你的.vimrc配置了语法高亮&#xff0c;但是你的vim没实现&#xff0c;可能你的vim是vim-tiny的黑白版本&#xff0c;你需要vim-gnome这个带GUI的彩色版本。 apt-get update apt-get upgrade apt-get install vim-gnome reboot打开vi就能看到彩色啦

__attribute__机制介绍

1. __attribute__ GNU C的一大特色&#xff08;却不被初学者所知&#xff09;就是__attribute__机制。 __attribute__可以设置函数属性(Function Attribute)、变量属性(Variable Attribute)和类型属性(Type Attribute) __attribute__前后都有两个下划线&#xff0c;并且后面会紧…

【git】git基本操作命令

1.建立本地仓库 git config --global user.name "lora" git config --global user.email "xxxgmail.com"2.建立目录 mkdir xxx3.初始化 cd xxx //进入目录 git init //初始化4.将代码上传至本地缓存区 git add . //上传全部 git add 文件名 //…