极速查找(2)-算法分析

篇前小言

本篇文章是对查找(1)的续讲

线性索引查找

线性索引查找(Linear Index Search)是一种基于索引的查找算法。它在数据集合中创建一个索引
结构,然后使用该索引结构来加快对目标元素的查找。
线性索引是一种在数据集合中创建索引结构以加速查找的方法。它适用于较大的数据集合,可以在常数
时间内访问索引项并快速定位到目标元素所在的区域。

概念解读

线性索引的核心思想是将数据集合分割成多个块,并为每个块创建索引项。索引项通常包含块的起始位
置、结束位置以及块中的一些附加信息,比如最大值、最小值等。通过构建索引表,每个索引项记录了数据集合中一段连续块的信息。索引表的组织方式可以是一个数
组、链表或其他数据结构。当需要查找目标元素时,首先根据目标元素与索引项进行比较,确定目标元素可能出现在哪个块中。然
后,在对应的块范围内进行线性查找,直到找到目标元素或确认其不存在。使用线性索引可以节省查找时间,因为它将数据集合划分为块,首先在索引表中进行快速定位,然后在
目标块中进行查找。相比于遍历整个数据集合,线性索引可以大大减少查找的时间复杂度。然而,构建和维护索引需要额外的空间和时间成本。当数据集合发生变化时,如插入、删除等操作,索
引可能需要被更新,这可能导致索引失效或者增加更新的成本。线性索引是一种权衡索引结构,它在某些情况下可以提供较好的查询性能,但也需要考虑索引的开销和
维护的复杂性。在实际应用中,可以根据数据集合的大小、查询频率和更新频率等因素来选择适当的索
引策略。

稠密索引

概念

稠密索引(Dense Index)是线性索引的一种形式,它在索引表中为数据集合每个数据项创建一个索引
项,即每个数据项都有一个对应的索引项。稠密索引中的每个索引项通常包含以下信息:
键值(Key):对应数据项的键值。
指针(Pointer):指向数据项在物理存储中的位置,可以是数据的物理地址、页码或盘区号等。

特点

1、每个数据项都有一个对应的索引项,因此索引表的大小与数据集合的大小相同。
2、索引项按照键值进行排序,以支持快速的二分查找。
3、查询时,可以直接通过二分查找在索引表中定位到对应的索引项,然后使用索引项的指针找到相应的数据项。

优点

可以快速定位到指定键值的数据项,查找性能高。因为索引项与数据项是一一对应的,所以不需要进行
额外的查找或数据项的扫描。

缺点

1、索引表的大小与数据集合的大小相同,需要占用额外的存储空间。当数据集合较大时,索引表可能会占用大量的存储空间。
2、插入、删除数据项时,需要更新索引表。这可能导致频繁的索引维护操作,影响了性能。
3、索引项的排序需要一定的时间成本,尤其是在数据集合进行频繁的插入和删除操作时。
4、稠密索引适用于具有较小数据集合的情况,对于静态数据集合或者数据集合更新频率较低的情况,
稠密索引可以提供较好的查找性能。但在动态数据集合或频繁更新的情况下,稠密索引的更新成本可能
会变得很高。

实际应用

数据库管理系统:在数据库中,数据表中的主键通常会使用稠密索引进行管理。稠密索引可以快速定位
到具有特定主键值的数据记录,提高查询性能。数据库还可以使用稠密索引来优化其他常用的查询操作,
如范围查询、排序和连接操作等。文件系统:在文件系统中,可以使用稠密索引来管理文件的索引和位置信息。文件系统可以通过稠密索
引加快文件的定位和访问,提高文件系统的性能。图书索引:在图书馆或文档管理系统中,可以使用稠密索引来管理图书的关键词索引。稠密索引可以快
速定位到包含特定关键词的书籍,方便用户进行检索和访问。网络搜索引擎:搜索引擎可以使用稠密索引来管理互联网上的网页索引。稠密索引可以根据关键词快速
定位到具有相关内容的网页,提高搜索引擎的查询效率。文件或数据存储系统:在文件或数据存储系统中,可以使用稠密索引来加速数据的检索和访问。通过使
用稠密索引,可以快速定位和读取磁盘上的数据块或页面,提高读取和写入操作的性能。还可以应用于任何需要快速定位和检索数据的应用程序和系统。然而,需要注意的是,在使用稠密索引
时需要权衡存储空间的利用和维护索引的成本,以确保索引的性能和效益相匹配。

分块索引

概念

分块索引(Block Index)是线性索引的一种形式,它在数据集合中将数据分成多个块,并为每个块
创建一个索引项。与稠密索引不同,分块索引并不要求每个数据项都有对应的索引项,而是以块为单
位进行索引。

特点

减少索引表大小:相比于稠密索引,分块索引的索引表大小通常更小。因为不是每个数据项都有对应的
索引项,而是以块为单位进行索引。这减少了索引表的存储空间需求,并可以减少对额外存储空间的占
用。块级别的排序和查找:分块索引中的索引项按照块的顺序进行排序,而不是按照每个数据项的顺序。这
种排序方式使得可以在块级别上进行更快的查找,加速了查询操作。通过在确定的目标块中进行线性查
找,可以快速找到目标值,而不需要遍历整个数据集合。范围查询优化:分块索引对于范围查询具有优化的效果。由于索引项按照块的顺序排序,可以通过比较
目标范围的起始值和结束值与索引项的最大值和最小值来确定目标块的范围。然后,在确定的范围内进
行线性查找,降低了范围查询的时间复杂度。适应动态数据集合:当数据集合发生插入或删除操作时,分块索引相对于稠密索引具有更好的适应性。
只需要更新受影响的块和相关索引项,而不需要更新整个索引表。这降低了索引的维护成本,并提供了
更好的性能。可调节块大小:分块索引允许调整块的大小以适应不同的需求。较小的块大小可以提供更精细的索引,
更快的查询速度,但会增加索引表的大小。较大的块大小可以减少索引表的规模,但可能导致块内的
线性查找时间增加。根据具体应用的需求,可以根据数据集合的大小、查询模式和硬件资源等因素来
选择合适的块大小。

优点

减少索引表大小:相对于稠密索引,分块索引的索引表大小通常更小。由于只为每个块创建一个索引项,
而不是每个数据项,因此可以节省大量存储空间,尤其是当数据集合非常大时。提高查询性能:分块索引通过按照块的顺序对索引项进行排序,可以在块级别上进行更快的查找。在确
定目标块后,只需要在该块内进行线性查找即可找到目标值。这减少了查找过程中的比较次数和访问次
数,从而提高了查询性能。优化范围查询:由于索引项按照块的顺序排序,分块索引对范围查询有优化效果。通过比较目标范围的
起始值和结束值与索引项的最大值和最小值,可以确定目标块的范围。然后,只需在确定的块内进行线
性查找,避免了不必要的比较和访问。适应动态数据集合:分块索引对于动态数据集合更具适应性。当发生数据插入或删除操作时,只需更新
受影响的块和相关索引项,无需修改整个索引表。这样可以减少索引维护的开销,并提供更好的数据库
性能和响应时间。可调节块大小:分块索引允许调整块的大小以适应不同的需求。较小的块大小可以提供更精细的索引,
减少查找时间和空间占用。较大的块大小可以减少索引表的规模,适用于具有大块数据和较低查询频率
的场景。通过根据数据集合特征和查询模式选择合适的块大小,可以优化索引的性能和存储效率。

缺点

块内线性查找:在确定目标块后,需要在该块内进行线性查找。对于大块或者块内数据分布不均匀的情
况,线性查找时间可能较长,导致查询性能下降。相比于其他索引结构如B树或哈希索引,分块索引在
这方面的性能表现较差。块内数据的顺序性:分块索引要求将数据按块进行划分,并在块内保持一定的顺序性。如果数据分布不
均匀或者动态变化,块内数据的顺序性可能被打乱,导致查找性能下降。索引表的维护:当数据集合发生插入或删除操作时,需要更新索引表。尽管相比于其他索引结构,分块
索引的维护成本较低,但仍然存在一定的开销,特别是当数据插入或删除导致块的分割或合并时。对于点查询的效率:分块索引的主要优化点在于范围查询,对于点查询(即只查询一个特定值)的效率
可能不如其他索引结构高效。块大小的选择:分块索引中块的大小需要根据数据集合特征和查询模式来选择。选择过小的块大小可能
导致索引表过大,增加存储开销;选择过大的块大小可能增加了每个块内的线性查找成本。

实际应用

大规模数据集合:当处理大规模数据集合时,分块索引可以提供较好的存储效率和查询性能。通过将数
据划分为块,并为每个块创建索引项,可以减少索引表的大小并减少查找所需的时间。范围查询频繁的场景:如果应用需要频繁进行范围查询,例如根据时间范围或数值范围进行查询,分块
索引可以提供较好的查询性能。分块索引的块级别排序和范围查询优化可以加速范围查询操作。存储资源有限的环境:在存储资源有限的环境下,分块索引可以帮助降低索引表的大小,从而节省存储
空间。这对于存储密集型应用或者存储资源有限的嵌入式系统特别有价值。需要适应动态数据变化的应用:分块索引对动态数据集合的变化具有较好的适应性。由于只需要更新
受影响的块和相关索引项,而不需要修改整个索引表,分块索引可以提供更高的性能和更快的数据维
护。部分数据访问的场景:当应用仅需要访问数据集合的一部分数据时,分块索引可以提供较好的性能。
通过仅创建和维护需要访问的块的索引项,可以减少不必要的索引开销和占用的存储空间。

倒排索引

概念

倒排索引(Inverted Index)是一种常用的索引结构,用于支持文本搜索和信息检索。与传统索引结
构(如分块索引)不同,倒排索引是基于单词(词项)来建立索引。

特点

逆向索引策略:倒排索引以词项(单词)为索引项,将文档或文本片段与词项进行关联。相对于传统的
正向索引(以文档为索引项),倒排索引采用逆向的索引策略,以支持词项的搜索和访问。快速定位文档:倒排索引使用一个字典结构来存储词项和对应的倒排列表。在搜索过程中,可以快速定
位关键词项,并访问其倒排列表,获得包含该词项的文档或文本片段的信息。支持全文检索:倒排索引是全文检索的关键机制之一。通过查询词项在倒排索引中的倒排列表,可以找
到包含这些词项的文档或文本片段。这使得用户可以通过关键词来快速查找与搜索条件匹配的文本内容。高效的搜索性能:由于倒排索引的数据结构和查询算法的优化,它能够提供高效的搜索性能。通过跳跃
指针、字典压缩、倒排列表的压缩等技术,可以减少查询的时间和存储开销。支持复杂查询操作:倒排索引可以支持复杂的查询操作,如布尔逻辑运算、通配符查询、模糊查询等。
通过将多个词项的倒排列表进行逻辑组合,可以实现与、或、非等复杂查询需求。可扩展性和动态更新:倒排索引具有良好的可扩展性和动态更新性。当有新的文档加入或已有文档发生
变化时,只需更新相关的倒排列表,而无需修改整个索引结构。这使得倒排索引适用于处理大规模文本
集合和频繁变动的数据。

优点

字典结构:倒排索引以词项为索引项,使用一个字典结构来存储词项和对应的文档列表。这使得在文本搜索过程中可以快速定位和访问相关的文档。文本搜索和信息检索:倒排索引可以支持文本搜索和信息检索。通过查询词项对应的倒排列表,可以很快地获取包含该词项的文档或文本片段,从而实现全文检索。高效的搜索速度:倒排索引使用了逆向的索引策略,将词项与文档的关系进行关联,以支持高效的搜索和查询。通过索引结构和倒排列表,可以快速确定包含特定词项的文档。索引压缩和存储效率:倒排索引通常采用压缩技术,以减少索引的存储空间。倒排列表中的文档编号可以使用差分编码、变长编码等技术来降低存储空间。这使得倒排索引适用于处理大规模文本集合。支持复杂查询:倒排索引可以通过布尔逻辑运算和词项的组合,支持复杂的查询操作,如与、或、非等逻辑关系的组合查询。动态更新:倒排索引可以方便地支持文档的插入、删除和更新操作。当文档发生变化时,只需更新相关的倒排列表即可,而不需要修改整个索引结构。

缺点

空间消耗:倒排索引需要存储大量的索引数据结构,包括词项和倒排列表。对于大规模文本集合,倒排
索引需要占用相对较大的存储空间。构建和更新的开销:构建倒排索引需要遍历文本集合,对每个文档进行分词处理,并创建倒排列表。这
涉及到大量的计算和存储操作,因此构建和更新倒排索引需要一定的时间和计算资源。不支持多词项匹配:倒排索引是基于单词(词项)进行索引的,因此在进行搜索时不支持多词项的复杂
匹配。一些复杂的查询需求,如短语匹配或多词项关系匹配,可能需要额外的处理和算法。不支持部分匹配:倒排索引只记录包含词项的文档或文本片段的信息,而不记录词项在文档中的位置。
这使得倒排索引不适合支持部分匹配(如通配符查询)或基于位置的查询需求。不适用于结构化数据:倒排索引主要适用于处理文本数据,对于结构化数据(如数据库)的索引效果可
能不如其他索引结构(如B树索引)。查询性能受词项频率影响:对于频繁出现的词项,倒排索引的查询性能可能较低,因为倒排列表的大小
会增加,查询需要扫描更多的文档。

实际应用

搜索引擎:搜索引擎是倒排索引最为常见的应用场景之一。搜索引擎使用倒排索引构建搜索引擎的索引
库,以支持用户对网页、文档、图片等内容进行关键词搜索,并返回与搜索条件匹配的结果。文本搜索与信息检索:倒排索引被广泛应用于文本搜索和信息检索系统中。通过将词项与文档进行关
联,倒排索引可以实现关键词的全文搜索,并提供快速的检索性能,包括搜索引擎、文档管理系统、
电子图书馆等。大数据分析:倒排索引可以用于大数据分析和文本挖掘。通过建立词项到文档的映射关系,使得对大规
模文本数据进行统计分析、主题建模、词频分布等操作变得更加高效。媒体内容管理:倒排索引可以用于媒体内容管理系统,如音频、视频、图像等。通过分析和索引这些媒
体内容的关键词或描述信息,可以在媒体库中快速搜索和检索相关内容。社交媒体分析:对于社交媒体数据的分析和搜索,倒排索引可以快速定位包含特定关键词的帖子、评
论、用户等内容,实现社交媒体数据的搜索和检索功能。知识图谱和语义搜索:倒排索引可以用于构建知识图谱和语义搜索引擎。通过对知识图谱中的实体和
关系进行索引,可以支持语义相关性搜索和知识图谱推理。

下篇预告

二叉排序树、平衡二叉树

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/9284.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java书签 #解锁MyBatis的4种批量插入方式及ID返回姿势

1. 今日书签 项目开发中,我们经常会用到单条插入和批量插入。但是实际情况可能是,项目初期由于种种原因,在业务各处直接使用单条插入SQL进行开发(未开启批处理),在后面的迭代中,系统性能问题渐…

【数据挖掘】如何修复时序分析缺少的日期

一、说明 我撰写本文的目的是通过引导您完成一个示例来帮助您了解 TVF 以及如何使用它们,该示例解决了时间序列分析中常见的缺失日期问题。 我们将介绍: 如何生成日期以填补数据中缺失的空白如何创建 TVF 和参数的使用如何呼叫 TVF我们将考虑扩展我们的日…

字典序排数(力扣)思维 JAVA

给你一个整数 n ,按字典序返回范围 [1, n] 内所有整数。 你必须设计一个时间复杂度为 O(n) 且使用 O(1) 额外空间的算法。 示例 1: 输入:n 13 输出:[1,10,11,12,13,2,3,4,5,6,7,8,9] 示例 2: 输入:n 2 输…

3.矩阵常用操作

文章目录 线性代数的常用操作1.向量的内积2.向量的外积3.正交向量4.正交向量组5.向量空间的基与维数6.正交矩阵7.反对称矩阵8.齐次坐标与齐次变换矩阵9.相似矩阵10.相似对角化11.矩阵的特征分解12.奇异值分解SVD12.1 SVD求齐次矩阵方程的最小二乘解 13.满秩分解14.Pseudo-Inver…

使用网络 IP 扫描程序的原因

随着网络不断扩展以满足业务需求,高级 IP 扫描已成为网络管理员确保网络可用性和性能的关键任务。在大型网络中扫描 IP 地址可能具有挑战性,这些网络通常包括具有动态 IP、多个 DNS、DHCP 配置和复杂子网的有线和无线设备。使用可提供全面 IP 地址管理 &…

symfony/console

github地址:GitHub - symfony/console: Eases the creation of beautiful and testable command line interfaces 文档地址:The Console Component (Symfony 5.4 Docs) 默认命令list,可以用register注册一个command命令,之后可以…

缺陷推进管理办法

1.测试对缺陷做初步分析定位 测试对缺陷做初步分析定位,减少缺陷流转过程的消耗,如: 客户端测试时可以抓包看一下是接口返回数据有问题,还是客户端有问题 Web前端发现问题,可以F12看一下接口响应、返回信息等&…

面试题汇总——Java异常

异常类(Throwable)的种类 Java异常类(Throwable)可以分为两种: 错误Error:与虚拟机相关的问题,Java 虚拟机无法解决的严重问题;如:StackOverflowError 和 OOM。异常Exception:程序编码错误或外界因素导致等,能被系统捕获并处理; 检查型异常(CheckedException):…

【简单图论】CF1833 E

Problem - E - Codeforces 题意&#xff1a; 思路&#xff1a; 显然&#xff0c;最大值就是什么边都不连的连通块个数&#xff0c;最小值就是能连的都连上 那就是&#xff0c;如果一个连通块存在度为1的点&#xff0c;就把它当作接口连接 Code&#xff1a; #include <b…

Spring Boot 集成 Redis 三种模式实践汇总

背景 项目的某个模块集成了 SpringBoot Redis 包&#xff0c;客户端使用 Lettuce&#xff0c;Redis 测试环境单机模式。但是现场反馈的 Redis 环境是集群&#xff0c;如果简单的修改 spring.redis 配置为集群的配置信息&#xff0c;程序能否能无缝衔接呢&#xff1f; 本文记录…

音视频——帧内预测

H264编码(帧内预测) 在帧内预测模式中&#xff0c;预测块P是基于已编码重建块和当前块形成的。对亮度像素而言&#xff0c;P块用于44子块或者1616宏块的相关操作。44亮度子块有9种可选预测模式&#xff0c;独立预测每一个44亮度子块&#xff0c;适用于带有大量细节的图像编码&…

HTTPS简介

一、简介与原理 http协议是明文传输的&#xff0c;因此很容易被截取和解析&#xff0c;泄漏个人数据。https协议是在http和tcp之间多添加了一层&#xff0c;进行身份验证和数据加密。 HTTPS 原理 ① 客户端将它所支持的算法列表和一个用作产生密钥的随机数发送给服务器 ②…

Gempy三维结构地质建模简明教程

Gempy 是一个开源 Python 库&#xff0c;用于生成完整的 3D 结构地质模型。 该库是一个完整的开发&#xff0c;用于从界面、断层和层方向创建地质模型&#xff0c;它还关联地质层的顺序以表示岩石侵入和断层顺序。 推荐&#xff1a;用 NSDT设计器 快速搭建可编程3D场景。 地质建…

LLaMA2可商用|GPT-4变笨|【2023-0723】【第七期】

一、大咖观点&#xff1a; 傅盛&#xff1a;ChatGPT时代如何创业 - BOTAI - 博客园Google 已经被OpenAI 超越了吗&#xff1f;| AlphaGo 之父深度访谈《人民日报》&#xff1a;大模型的竞争&#xff0c;是国家科技战略的竞争WAIC 2023 | 张俊林&#xff1a;大语言模型带来的交…

Node.js:execSync执行一个shell命令

默认输出是Buffer对象 const { execSync } require(child_process)let out execSync("echo hi") console.log(out); // <Buffer 68 69 0a>需要转为字符串 const { execSync } require(child_process)let out execSync("echo hi") console.log(…

设计模式之状态模式

状态决定行为。由于状态在运行期间是可以被改变的。在VoteManager类中根据条件来创建不同的状态实现类&#xff0c;于是到最后就会调用不同的逻辑。 看起来同一个对象&#xff0c;在不同的运行时刻&#xff0c;行为是不一样的&#xff0c;就像是类被修改了一样&#xff01; 场…

labview 信号量实现互斥 避免竞争写

上一篇文章中描述了事件发生、集合点、通知器、信号量。 本文进一步举例描述信号量实现互斥&#xff0c;避免竞争写。 1.不用信号量的例子 图1-不用信号量的结果都不同&#xff0c;不为0 图2-不用信号量的例子&#xff0c;程序框图 2.用信号量的例子 图3-用信号量的例子&…

结构型设计模式之亨元模式【设计模式系列】

系列文章目录 C技能系列 Linux通信架构系列 C高性能优化编程系列 深入理解软件架构设计系列 高级C并发线程编程 设计模式系列 期待你的关注哦&#xff01;&#xff01;&#xff01; 现在的一切都是为将来的梦想编织翅膀&#xff0c;让梦想在现实中展翅高飞。 Now everythi…

Unity中使用CSV文件作为关卡数据

要在Unity中使用CSV文件作为关卡数据&#xff0c;并在通关后导入下一关的CSV文件数据&#xff0c;你可以按照以下步骤进行操作&#xff1a; 创建一个空的游戏对象&#xff0c;将其命名为"LevelManager"。 在"LevelManager"对象上创建一个C#脚本&#xff0…

MySQL 主从复制的认识 2023.07.23

一、理解MySQL主从复制原理 1、概念&#xff1a;主从复制是用来建立一个和 主数据库完全一样的数据库环境称为从数据库&#xff1b;主数据库一般是准实时的业务数据库。 2、作用&#xff1a;灾备、数据分布、负载平衡、读写分离、提高并发能力 3、原理图 4、具体步骤 (1) M…