BoostCompass(建立正排索引和倒排索引模块)

在这里插入图片描述

阅读导航

  • 一、模块概述
  • 二、编写正排索引和倒排索引模块
    • ✅安装 jsoncpp
    • ✅Jieba分词库的安装
    • 1. 代码基本框架
    • 2. 正排索引的建立
    • 3. 倒排索引的建立
  • 三、整体代码
    • ⭕index.hpp

一、模块概述

这个模块我们定义了一个名为Index的C++类,用于构建和维护一个文档索引系统。该系统采用单例模式确保只有一个索引实例,并使用正排索引和倒排索引来快速检索文档。正排索引存储了文档的基本信息,如标题、内容和URL,而倒排索引则根据关键词将文档分组。类中提供了构建索引、获取文档信息和获取倒排列表的方法。构建索引的过程涉及读取处理过的数据文件,解析文档数据,并根据文档内容构建索引。此外,我们还实现了简单的进度显示功能。整个索引系统的构建旨在提高文档检索的效率和准确性。

二、编写正排索引和倒排索引模块

✅安装 jsoncpp

🔴安装方法:sudo yum install -y jsoncpp-devel

✅Jieba分词库的安装

PS:我们要先在Linux机器上安装Jieba分词库链接:🔴 "结巴(Jieba)"中文分词的C++版本

在这里插入图片描述

1. 代码基本框架

#pragma once
#include <iostream>
#include <string>
#include <vector>
#include <fstream>
#include <unordered_map>
#include <mutex>
#include "util.hpp" 
#include "log.hpp"  namespace ns_index {// 定义文档信息结构体struct DocInfo {std::string title;   // 文档的标题std::string content; // 文档内容(去标签后)std::string url;     // 文档的URLuint64_t doc_id;     // 文档的唯一ID};// 定义倒排列表中的元素结构体struct InvertedElem {uint64_t doc_id;   // 文档IDstd::string word;  // 关键字int weight;        // 关键字权重InvertedElem() : weight(0) {} // 默认构造函数,权重初始化为0};// 获取单例模式的实例static Index* GetInstance() {// 双重检查锁定模式,确保线程安全地获取单例if (nullptr == instance) {mtx.lock();if (nullptr == instance) {instance = new Index();}mtx.unlock();}return instance;}// 定义索引类Indexclass Index {private:// 构造函数、拷贝构造函数和赋值操作符都设置为私有,防止被实例化Index() {}Index(const Index&) = delete;Index& operator=(const Index&) = delete;// 单例模式的实例指针static Index* instance;// 保护单例模式的互斥锁static std::mutex mtx;public:// 析构函数~Index() {}// 根据关键字获取倒排拉链InvertedList* GetInvertedList(const std::string& word) {auto iter = inverted_index.find(word);if (iter == inverted_index.end()) {std::cerr << word << " have no InvertedList" << std::endl;return nullptr;}return &(iter->second);}};// 初始化单例模式的实例指针为nullptrIndex* Index::instance = nullptr;// 初始化互斥锁std::mutex Index::mtx;
}

代码分析

  1. 文档信息结构体 (DocInfo):

    • 定义了存储文档信息的结构体,包括标题、内容、URL和文档ID。
  2. 倒排列表元素结构体 (InvertedElem):

    • 定义了倒排列表中的元素结构体,包括文档ID、关键字和关键字权重。
  3. 单例模式的实现 (Index 类):

    • Index 类使用单例模式来确保整个程序中只有一个索引实例。
    • 构造函数、拷贝构造函数和赋值操作符都是私有的,防止外部直接创建实例。
    • GetInstance 方法用于获取索引实例,采用双重检查锁定模式来确保线程安全。
    • GetInvertedList 方法用于根据关键字获取对应的倒排列表。
  4. 全局变量和互斥锁

    • instance 是一个静态指针,指向Index类的实例。
    • mtx 是一个静态互斥锁,用于保护单例模式的实例创建过程。

总体来说,上面的代码展示了一个索引系统的基础框架,包括文档信息的存储结构和单例模式的索引管理。

2. 正排索引的建立

// 定义宏常量
#define NUM 101// 正排索引存储文档信息
std::vector<DocInfo> forward_index;// 根据文档ID获取文档信息
DocInfo* GetForwardIndex(uint64_t doc_id) {if (doc_id >= forward_index.size()) {std::cerr << "doc_id out of range, error!" << std::endl;return nullptr;}return &forward_index[doc_id];
}// 构建索引,输入为处理完毕的数据文件路径
bool BuildIndex(const std::string& input) {// 打开输入文件std::ifstream in(input, std::ios::in | std::ios::binary);if (!in.is_open()) {std::cerr << "sorry, " << input << " open error" << std::endl;return false;}// 读取文件行并构建索引std::string line;int count = 0;std::string bar(NUM, ' '); // 创建进度条bar[1] = '=';while (std::getline(in, line)) {DocInfo* doc = BuildForwardIndex(line);if (nullptr == doc) {continue;}BuildInvertedIndex(*doc);count++;// 显示进度if (count % 86 == 0) {int cnt = count / 86 + 1;bar[cnt] = '=';std::cout << "成功建立索引进度: " << bar << " [" << cnt << "%]" << "\r";std::cout.flush();}}std::cout << std::endl;return true;
}// 私有辅助函数,用于构建正排索引
DocInfo* BuildForwardIndex(const std::string& line) {// 分割字符串为标题、内容和URLstd::vector<std::string> results;const std::string sep = "\3"; // 行内分隔符ns_util::StringUtil::Split(line, &results, sep);if (results.size() != 3) {return nullptr;}// 创建文档信息并添加到正排索引DocInfo doc;doc.title = results[0];doc.content = results[1];doc.url = results[2];doc.doc_id = forward_index.size();// 插入到正排索引的vectorforward_index.push_back(std::move(doc));return &forward_index.back();
}

代码分析

  1. forward_index 是一个 std::vector,用于存储所有文档的正排索引信息。
  2. GetForwardIndex 函数通过文档ID从正排索引中检索文档信息。如果文档ID超出范围,则返回空指针并打印错误信息。
  3. BuildIndex 函数用于从数据文件中读取文档数据并构建索引。它打开输入文件,逐行读取并处理每一行,构建正排索引和倒排索引,并显示进度条。
  4. BuildForwardIndex 函数是一个私有辅助函数,用于构建单个文档的正排索引条目。它将输入行分割为标题、内容和URL,创建一个 DocInfo 对象,并将其添加到 forward_index 向量中。

3. 倒排索引的建立

// 定义宏常量
#define X 10
#define Y 1// 倒排索引存储关键字到倒排列表的映射
std::unordered_map<std::string, InvertedList> inverted_index;// 定义倒排列表的类型为InvertedElem元素的向量
typedef std::vector<InvertedElem> InvertedList;// 私有辅助函数,用于构建倒排索引
bool BuildInvertedIndex(const DocInfo& doc) {// 分词并统计词频struct word_cnt {int title_cnt;int content_cnt;word_cnt() : title_cnt(0), content_cnt(0) {}};// 用来暂存词频的映射表std::unordered_map<std::string, word_cnt> word_map;// 对标题进行分词std::vector<std::string> title_words;ns_util::JiebaUtil::CutString(doc.title, &title_words);// 对标题进行词频统计for (std::string s : title_words) {boost::to_lower(s);  // 将单词转换为小写word_map[s].title_cnt++;  // 如果存在就增加计数,否则创建新条目}// 对文档内容进行分词std::vector<std::string> content_words;ns_util::JiebaUtil::CutString(doc.content, &content_words);// 对内容进行词频统计for (std::string s : content_words) {boost::to_lower(s);word_map[s].content_cnt++;}// 构建倒排列表for (const auto& word_pair : word_map) {InvertedElem item;item.doc_id = doc.doc_id;item.word = word_pair.first;// 计算权重,标题中的词乘以X,内容中的词乘以Yitem.weight = X * word_pair.second.title_cnt + Y * word_pair.second.content_cnt;// 获取对应关键字的倒排列表,并添加新的倒排元素InvertedList& inverted_list = inverted_index[word_pair.first];inverted_list.push_back(std::move(item));}return true;
}

代码分析

  1. 定义数据结构

    • DocInfo 结构体定义了文档信息,包括标题、内容、URL和唯一的文档ID。
    • InvertedElem 结构体定义了倒排列表中的元素,包括文档ID、关键字和权重。
    • InvertedList 类型定义为 std::vector<InvertedElem>,表示一个倒排列表,包含多个 InvertedElem 元素。
  2. 构建正排索引

    • forward_index 是一个 std::vector<DocInfo>,用于存储所有文档的正排索引信息。
    • GetForwardIndex 函数通过文档ID从正排索引中检索文档信息。
  3. 构建倒排索引

    • inverted_index 是一个 std::unordered_map<std::string, InvertedList>,用于存储关键字到倒排列表的映射。
    • BuildInvertedIndex 函数用于根据文档信息构建倒排索引。它首先对文档的标题和内容进行分词,然后统计每个词在标题和内容中出现的次数(词频)。
    • 每个分词后的词都会被转换为小写,以便进行不区分大小写的搜索。
    • 为每个词创建一个 InvertedElem 对象,并根据其在标题和内容中的出现次数计算权重。
    • InvertedElem 对象添加到 inverted_index 中对应关键字的倒排列表中。
  4. 处理文本数据

    • BuildIndex 函数打开并读取输入文件,该文件包含处理完毕的文档数据。
    • 对文件中的每一行数据,使用 BuildForwardIndex 函数构建正排索引条目,并调用 BuildInvertedIndex 函数构建倒排索引。
    • 在构建索引的过程中,显示进度条以指示索引构建的进度。

整体来说,上面这段代码展示了如何从文本数据中提取文档信息,并构建正排索引和倒排索引,以便在搜索引擎中快速检索相关文档。通过倒排索引,可以有效地根据关键字找到所有相关文档,提高搜索效率。

三、整体代码

⭕index.hpp

#pragma once
#include <iostream>
#include <string>
#include <vector>
#include <fstream>
#include <unordered_map>
#include <mutex>
#include "util.hpp" 
#include "log.hpp"  #define NUM 101
#define X 10
#define Y 1namespace ns_index {// 定义文档信息结构体struct DocInfo {std::string title;   // 文档的标题std::string content; // 文档内容(去标签后)std::string url;     // 文档的URLuint64_t doc_id;     // 文档的唯一ID};// 定义倒排列表中的元素结构体struct InvertedElem {uint64_t doc_id;   // 文档IDstd::string word;  // 关键字int weight;        // 关键字权重InvertedElem() : weight(0) {} // 默认构造函数,权重初始化为0};// 倒排拉链储存列表typedef std::vector<InvertedElem> InvertedList;// 定义索引类Indexclass Index {private:// 正排索引存储文档信息std::vector<DocInfo> forward_index;// 倒排索引存储关键字到倒排列表的映射std::unordered_map<std::string, InvertedList> inverted_index;// 构造函数、拷贝构造函数和赋值操作符都设置为私有,防止被实例化Index() {}Index(const Index&) = delete;Index& operator=(const Index&) = delete;// 单例模式的实例指针static Index* instance;// 保护单例模式的互斥锁static std::mutex mtx;public:// 析构函数~Index() {}// 获取单例模式的实例static Index* GetInstance() {// 双重检查锁定模式,确保线程安全地获取单例if (nullptr == instance) {mtx.lock();if (nullptr == instance) {instance = new Index();}mtx.unlock();}return instance;}// 根据文档ID获取文档信息DocInfo* GetForwardIndex(uint64_t doc_id) {if (doc_id >= forward_index.size()) {std::cerr << "doc_id out of range, error!" << std::endl;return nullptr;}return &forward_index[doc_id];}// 根据关键字获取倒排拉链InvertedList* GetInvertedList(const std::string& word) {auto iter = inverted_index.find(word);if (iter == inverted_index.end()) {std::cerr << word << " have no InvertedList" << std::endl;return nullptr;}return &(iter->second);}// 构建索引,输入为处理完毕的数据文件路径bool BuildIndex(const std::string& input) {// 打开输入文件std::ifstream in(input, std::ios::in | std::ios::binary);if (!in.is_open()) {std::cerr << "sorry, " << input << " open error" << std::endl;return false;}// 读取文件行并构建索引std::string line;int count = 0;std::string bar(NUM, ' '); // 创建进度条bar[1] = '=';while (std::getline(in, line)) {DocInfo* doc = BuildForwardIndex(line);if (nullptr == doc) {continue;}BuildInvertedIndex(*doc);count++;// 显示进度if (count % 86 == 0) {int cnt = count / 86 + 1;bar[cnt] = '=';std::cout << "成功建立索引进度: " << bar << " [" << cnt << "%]" << "\r";std::cout.flush();}}std::cout << std::endl;return true;}private:// 私有辅助函数,用于构建正排索引DocInfo* BuildForwardIndex(const std::string& line) {// 分割字符串为标题、内容和URLstd::vector<std::string> results;const std::string sep = "\3"; // 行内分隔符ns_util::StringUtil::Split(line, &results, sep);if (results.size() != 3) {return nullptr;}// 创建文档信息并添加到正排索引DocInfo doc;doc.title = results[0];doc.content = results[1];doc.url = results[2];doc.doc_id = forward_index.size();//插入到正排索引的vectorforward_index.push_back(std::move(doc));return &forward_index.back();}// 私有辅助函数,用于构建倒排索引bool BuildInvertedIndex(const DocInfo& doc) {// 分词并统计词频struct word_cnt{int title_cnt;int content_cnt;word_cnt():title_cnt(0), content_cnt(0){}};std::unordered_map<std::string, word_cnt> word_map; //用来暂存词频的映射表//对标题进行分词std::vector<std::string> title_words;ns_util::JiebaUtil::CutString(doc.title, &title_words);//对标题进行词频统计for(std::string s : title_words){boost::to_lower(s);      //需要统一转化成为小写word_map[s].title_cnt++; //如果存在就获取,如果不存在就新建}//对文档内容进行分词std::vector<std::string> content_words;ns_util::JiebaUtil::CutString(doc.content, &content_words);//对内容进行词频统计for(std::string s : content_words){boost::to_lower(s);word_map[s].content_cnt++;}// 构建倒排列表for (const auto& word_pair : word_map) {InvertedElem item;item.doc_id = doc.doc_id;item.word = word_pair.first;item.weight = X * title_cnt.title_cnt + Y * content_cnt.content_cnt;InvertedList& inverted_list = inverted_index[word_pair.first];inverted_list.push_back(std::move(item));}return true;}};// 初始化单例模式的实例指针为nullptrIndex* Index::instance = nullptr;// 初始化互斥锁std::mutex Index::mtx;
}

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/814022.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【计算机毕业设计】停车场管理系统——后附源码

&#x1f389;**欢迎来到琛哥的技术世界&#xff01;**&#x1f389; &#x1f4d8; 博主小档案&#xff1a; 琛哥&#xff0c;一名来自世界500强的资深程序猿&#xff0c;毕业于国内知名985高校。 &#x1f527; 技术专长&#xff1a; 琛哥在深度学习任务中展现出卓越的能力&a…

Harmony鸿蒙南向驱动开发-SDIO接口使用

功能简介 SDIO是安全数字输入输出接口&#xff08;Secure Digital Input and Output&#xff09;的缩写&#xff0c;是从SD内存卡接口的基础上演化出来的一种外设接口。SDIO接口兼容以前的SD卡&#xff0c;并且可以连接支持SDIO接口的其他设备。 SDIO接口定义了操作SDIO的通用…

21 标准错误

标准输出重定向关闭无数据 下面的代码&#xff1a; #include <stdio.h> #include <string.h> #include <stdlib.h> #include <unistd.h> #include <sys/types.h> #include <sys/stat.h> #include <fcntl.h>int main() {close(1);i…

Xilinx Zynq UltraScale+ MPSoC无人机控制器

官方术语是无人驾驶飞行器&#xff08;UAV&#xff09;&#xff0c;这显然有点拗口&#xff0c;所以我们更喜欢说无人机。在过去的几十年里&#xff0c;无人机技术有了巨大的进步。我们为一个客户开发了一个无人机的飞行和视频控制器。 客户挑战 客户需要一种混合FPGA/CPU硬件&…

是的,本科毕业八年,我考研了

今天&#xff0c;是一篇纯分享文。 是的&#xff0c;本科毕业八年&#xff0c;我考研了。 停更10个月&#xff0c;历时296天&#xff0c;我考研上岸了。 小伙伴们&#xff0c;好久不见。 一 发今年第一篇文章的时候刚处理完后续事宜&#xff0c;就简单说了句&#xff0c;后台…

MoCo v1(CVPR 2020)原理与代码解读

paper&#xff1a;Momentum Contrast for Unsupervised Visual Representation Learning official implementation&#xff1a;https://github.com/facebookresearch/moco 背景 最近的一些研究提出使用对比损失相关的方法进行无监督视觉表征学习并取得了不错的结果。尽管是受…

【DM8】临时表空间

临时表分类 事务级临时表会话级临时表 临时表&#xff0c;可以像普通表一样插入、更新和删除数据临时表的DML操作产生较少的redo日志临时表支持创建索引&#xff0c;以提高查询性能在一个会话或事务结束之后&#xff0c;数据将自动从临时表中删除不同的用户访问相同的临时表&a…

吴恩达深度学习 (week3,4)

文章目录 一、神经网络概述二、神经网络的表示三、神经网络的输出四、多个例子的向量化五、向量化实现的解释六、深度学习激活函数七、激活函数导数八、神经网络的梯度下降法九、深度学习随机初始化十、上述学习总结1、第一题2、第二题3、第三题4、第四题5、第五题6、第六题7、…

关于Transformer的面试题

文章目录 前言1、Transformer模型1. 1 基本要点1.2 提升 2、BN和LN的区别和联系2.1 基本要点2.2 扩展 3、PreNorm和PostNorm的区别[链接](https://www.zhihu.com/question/519668254)4、Multi-head self-attention中为什么要用三个不同的矩阵 前言 Transformer大模型的一些问题…

【GEE实践应用】哨兵1号和2号数据叠加

目录 1.数据叠加代码 2.代码逐句解释 1.数据叠加代码 var geometry table; //table是我们提前导入的矢量数据 // 加载Sentinel-2影像 var sentinel2 ee.ImageCollection("COPERNICUS/S2").filterBounds(geometry) // geometry是你感兴趣区域的几何对象.filte…

Redis:发布和订阅

文章目录 一、介绍二、发布订阅命令 一、介绍 Redis的发布和订阅功能是一种消息通信模式&#xff0c;发送者&#xff08;pub&#xff09;发送消息&#xff0c;订阅者&#xff08;sub&#xff09;接收消息。这种功能使得消息发送者和接收者不需要直接建立连接&#xff0c;而是通…

商标没有去注册有哪些不好的影响!

有些商家咨询普推知产老杨&#xff0c;商标没有去注册有哪些不好的影响&#xff0c;其实对企业来说还有许多实际不利的影响&#xff0c;有时代价比注册一个商标要大很多。 想的商标名称没去注册商标&#xff0c;如果别人抢注拿下商标注册证&#xff0c;那就会涉及侵权&#xf…

工厂方法模式:解锁灵活的对象创建策略

在软件设计中&#xff0c;工厂方法模式是一种非常实用的创建型设计模式&#xff0c;它不仅提升了系统的灵活性&#xff0c;还简化了对象的创建过程。本文将详细探讨工厂方法模式的核心概念、实现方式、应用场景以及与其他设计模式的对比&#xff0c;旨在提供一份全面且实用的指…

磁悬浮鼓风机市场规模不断增长 我国行业发展面临挑战

磁悬浮鼓风机市场规模不断增长 我国行业发展面临挑战 磁悬浮鼓风机又称磁悬浮高速离心鼓风机&#xff0c;指基于磁悬浮技术制成的气体输送设备。磁悬浮鼓风机综合性能优良&#xff0c;属于高效节能磁悬浮动力装备&#xff0c;在众多领域需求旺盛。未来随着国家节能环保政策逐渐…

阿里云优惠口令2024最新

2024年阿里云域名优惠口令&#xff0c;com域名续费优惠口令“com批量注册更享优惠”&#xff0c;cn域名续费优惠口令“cn注册多个价格更优”&#xff0c;cn域名注册优惠口令“互联网上的中国标识”&#xff0c;阿里云优惠口令是域名专属的优惠码&#xff0c;可用于域名注册、续…

01—JavaScript概述

一、初识Javascript JavaScript一种直译式脚本语言&#xff0c;是一种动态类型、弱类型、基于原型的语言&#xff0c;内置支持类型。它的解释器被称为JavaScript引擎&#xff0c;为浏览器的一部分&#xff0c;广泛用于客户端的脚本语言&#xff0c;最早是在 HTML&#xff08;标…

jsoncpp 编译和使用

原文链接&#xff1a; jsoncpp的编译和使用 jsoncpp 编译出库文件 1.从github仓库下载 2.下载 cmake 工具 3.生成VS项目 4.编译得到需要的库文件 jsoncpp 的使用 查看原文

基于Springboot的自习室预订系统

基于SpringbootVue的自习室预订系统的设计与实现 开发语言&#xff1a;Java数据库&#xff1a;MySQL技术&#xff1a;SpringbootMybatis工具&#xff1a;IDEA、Maven、Navicat 系统展示 用户登录页 网站首页 公告信息 留言反馈 后台管理 学生信息管理 公告信息管理 留言…

入门:多层感知器Multiple-Layer Perceiver, MLP

本文将简单介绍多层感知器&#xff08;MLP&#xff09;的基本概念、原理和应用。MLP是一种前馈人工神经网络&#xff0c;由多层节点组成&#xff0c;每层节点通过权重和偏置与下一层节点相连。MLP在许多领域都有广泛的应用&#xff0c;如分类、回归、自然语言处理等。 本文将分…

SRNIC、选择性重传、伸缩性、连接扩展性、RoCEv2优化(六)

参考论文SRDMA&#xff08;A Scalable Architecture for RDMA NICs &#xff09;&#xff1a;https://download.csdn.net/download/zz2633105/89101822 借此&#xff0c;对论文内容总结、加以思考和额外猜想&#xff0c;如有侵权&#xff0c;请联系删除。 如有描述不当之处&…