文本列的性能优化?深入Oracle全文索引

一.什么是全文索引?

全文索引通过分析和处理文本,将文档中的单词分解为词条(tokens),然后存储词条与其所在文档的映射关系。这使得数据库可以快速定位包含特定关键字的记录,而不必对所有文本逐字匹配。

二.实验

CREATE TABLE test (TEST_ID   NUMBER(6),TEST_NAME VARCHAR2(50),TEST_DESC VARCHAR2(4000)
);
BEGINFOR i IN 1..10000 LOOPINSERT INTO test (TEST_ID,TEST_NAME,TEST_DESC) VALUES (i, 'Product ' || i, DBMS_RANDOM.STRING('A', 2000));END LOOP;COMMIT;
END;
/

 创建一个普通索引

create index idx_test on test(test_desc);

查看执行计划,检查索引是否生效

 select * from test where test_desc like 'LRbwu%';

061a05344b9145c3aed953780b82ae2d.png

 到此,是没有任何问题的,在这种情况中,我们知道test_id 是以什么字符开头的


 

那么就会有这么一种情况,我们不知道这个内容开头是什么,只知道中间是什么,有什么关键字,那么这种情况 我们就需要<%内容%>,那么这种情况还会走索引吗?

select * from test where test_desc like '%AoaUR%';

ac80bd1246904582b226ddb63d6c4d1d.png

 这时候我们发现,走了全表扫描,所以普通的索引解决不了我们只知道关键字,而不知道以什么字符开头的情况。

这也可以理解,B Tree索引只顺序存储了表中列值以及对应的rowid,并且对于索引中字符串的排序,是根据该字符串第一个字符的ASCⅡ码,第一个字符的ASCⅡ码相同,再解析第二个。在这种情况中,我们不知道字符串前面的字符是什么,所以B Tree索引无法使用。

所以这种场景就需要我们今天介绍的内容-全文索引


三.使用全文索引

 

在使用之前,数据库中必须要系统用户CTXSYS,如果没有则有两种方式来配置

1.dbca配置数据库,这里不做演示,配置后产生了CTXSYS用户

35e5cef47d7d4cee81e0a23778356236.png

2.跑脚本

/u01/app/oracle/product/19.3.0/dbhome_1/ctx/admin
ls -al catctx.sql

在数据库中跑这个脚本就好。

 

创建全文索引

确认已存在的段

col segment_name for a30
col object_name for a30
select segment_name ,segment_type from user_segments;

18c8fe4c4b9f4758b598d29d9a136c59.png

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context;

79f29b61496343dabbe29b90861f54a3.png

这里我们发现,全文索引可以建立在普通索引之上,意思是表中的一列有索引了,仍然可以建立全文索引,说明全文索引的结构和普通索引的结构肯定是有区别的。

select * from test where contains(test_desc,'LRbwu') > 0;

5840c208c7944980b1ff628c353754c0.png

 可以看到sql语句走了全文索引。

再查看一下现在的段都有哪些

col segment_name for a30
col object_name for a30
select segment_name ,segment_type from user_segments;

ce955e6cdc84465ebae3d7bab9d4aa77.png

可以看到段多了很多TEST是基本表,剩下的除了IDX_TEST是普通索引,剩下的全是全文索引,

但是我们刚才创建的索引名字是idx_ctx_test,发现找不到,这是因为全文索引只是逻辑上的概念,他没有存储对象,它的实现都依赖这些表。

 

四.深入全文索引

我们来看看这几张表

1e07b6d7c46544c7806c959be3d0de39.png

出现的token给他编一个号,并且存储了重复出现的次数(TOKEN_COUNT)

我们随机搜索一个字符串。

2319e2aea0084f00b5d547bdcbbd2064.png

DR$IDX_CTX_TEST$I 这个表把test_desc 这一列的值像字典一样保存出来,编一个号,并且总结出现的次数。但由于我是使用的DBMS_RANDOM.STRING 这个包随机创建的数据,所以这个表非常的大。

编了号之后,仍然不知道这些词在哪个地方,这时候就需要另外一张表 DR$IDX_CTX_TEST$K

 061f0c48b5ac49fd8f61057c3842dca2.png

 55ccc6164b164605961a78c0b5a377ac.png

这个TEXTKEY就是rowid了,我们可以根据TESTKEY找到数据了.

也就是说 DR$IDX_CTX_TEST$I  会生成token和编号,DR$IDX_CTX_TEST$K 表示对应的这些编号数据存放在哪里

349b900f0b8d4d32a0988cba26cb3a0f.png

 

五.全文索引的维护

在TEST表上做DML操作,看索引与表是否同步4

1.insert

select * from test where test_desc like 'nihao';

c17d31deb2dd4b3eacd19f38a266ff65.png

insert into test values (999,'DBA','nihao');

 57a8bb0f56494de481e3410bec2a41fe.png

此时通过全文索引查找数据,查看是否更新  

select * from test where contains(test_desc,'nihao') > 0;

61ecbbb87f594490bd3f358f1ae1d998.png

发现全文索引没有更新,这就说明表中的数据变了,而全文索引中的数据没有变。

使用sys查看ctxsys.dR$pending表

select * from ctxsys.dR$pending;

3e55b96f11ac4a4286fd341e417546c1.png

 这个表里面的数据就是我刚才插入的数据,只是没有更新到全文索引

这种情况需要重建全文索引。

alter index idx_ctx_test rebuild;

再次使用全文索引查询发现更新了

56038c07225c41388b76df26546a237a.png

 

2.delete

941e56c3006a4c9d8913960d25a5387b.png

 查看全文索引

f626768693ec4680b29b0cef28065f48.png

 这里可以发现,delete与insert语句不同,delete后 全文索引也更新了。

3.update,可以自己做实验,update也是不同步全文索引的。

 

六.全文索引创建同步的方式

一遇到插入的场景就需要重建全文索引,这也太麻烦了,所以,我们可以在创建全局索引的时候指定同步的方式。

提交时同步

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context parameters('sync (on commit)');

 指定时间同步(建议)

需要给用户 job的权限

grant create job to user1;

 8ae23f100a2344e788b757590364bf8e.png

 例如:每天晚上两点来同步全文索引

create index idx_ctx_test on test(test_desc) indextype is ctxsys.context parameters ('sync (every "trunc(sysdate) + 2/24")');

20d45be2dddd40afa57e2bbeaf2fd8cd.png

 

 

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/57856.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CentOS7配置静态IP(非解决方法指导,纯笨蛋记录)

一、这篇博客算是记录我终于解决我安装的虚拟机ping不通外网的问题&#xff0c;前前后后我尝试了很多次花了很多时间&#xff0c;最后弄完发现其实都是因为我之前根本不知道什么是虚拟机的网络配置。。。。。 这个链接介绍了vmware虚拟机三种网络模式及配置详解_vmware 特定虚…

数据丢失不用愁!10款必备的数据恢复软件全介绍

现在我们使用微信的频率愈发高涨&#xff0c;不论是生活、工作&#xff0c;甚至是兴趣还好可能都能在这个软件里看到身影。正因为它涉及了我们的生活如果因为病毒或者其他原因导致聊天记录清空&#xff0c;对很多人来说都很麻烦。那么微信聊天记录删了怎样才能恢复呢&#xff0…

国内版Sketchfab平台 - CG美术之家(3D编辑发布篇)

CG美术之家为您提供了一个简便的模型上传流程&#xff0c;让发布您的3D模型变得轻而易举。只需准备好通用的3D模型格式&#xff0c;如OBJ、FBX或STL&#xff0c;您就可以轻松上传并分享您的创作。我们的平台支持在线3D渲染&#xff0c;您只需花费不到一分钟的时间&#xff0c;就…

安防被动红外和主动红外

被动红外探测器是依靠被动的吸收热能动物活动时身体散发出的红外热能进行报警的&#xff0c;也称热释红外探头&#xff0c;其探测器本身是不会发射红外线的。 被动红外探测器中有2个关键性元件&#xff0c;一个是菲涅尔透镜&#xff0c;另一个是热释电传感器。**自然界中任何高…

使用Flask构建RESTful API

&#x1f493; 博客主页&#xff1a;瑕疵的CSDN主页 &#x1f4dd; Gitee主页&#xff1a;瑕疵的gitee主页 ⏩ 文章专栏&#xff1a;《热点资讯》 使用Flask构建RESTful API Flask简介 环境搭建 安装Flask 项目结构 创建应用 路由定义 请求处理 获取查询参数 获取请求体 响应…

知识竞赛活动选手台桌怎么摆放好

知识竞赛活动选手台桌摆放主要根据选手台桌、舞台及和竞赛规则决定&#xff0c;一般有以下几种方案。 一、一字摆放 如果舞台宽度不够&#xff0c;就一字摆放。这样选手就无法看到大屏&#xff0c;选手就要配置看题平板或电脑。也可以在选手前面放置一台大电视。如图&#xf…

SQL之排名窗口函数RANK()、ROW_NUMBER()、DENSE_RANK() 和 NTILE() 的区别(SQL 和 Hive SQL 都支持)

现有一张student 表&#xff0c;表中包含id、uname、age、score 四个字段&#xff0c;如下所示&#xff1a; 该表的数据如下所示&#xff1a; 一、ROW_NUMBER() 1、概念 ROW_NUMBER() 为结果集中的每一行分配一个唯一的连续整数&#xff0c;编号从 1 开始。‌ 该函数按照指…

NeurIPS - Ariel Data Challenge 2024

1比赛概述 Ariel数据挑战2024 邀请参赛者开发机器学习模型&#xff0c;解决天文学领域中的一项重大挑战——从即将到来的欧洲航天局&#xff08;ESA&#xff09;Ariel任务的模拟观测中提取微弱的系外行星信号。Ariel任务计划于2029年启动&#xff0c;旨在对银河系邻近的约1,00…

Javaweb 实验4 xml

我发现了有些人喜欢静静看博客不聊天呐&#xff0c; 但是ta会点赞。 这样的人呢帅气低调有内涵&#xff0c; 美丽大方很优雅。 说的就是你&#xff0c; 不用再怀疑哦 实验四 XML 目的&#xff1a; 安装和使用XML的开发环境认识XML的不同类型掌握XML文档的基本语法了解D…

CRON组件一个复杂的一个简单的

CRON组件一个复杂的一个简单的 一个是复杂点的一个是简单点。 1.以简单的为例使用&#xff1a; 父组件 import CronSimple from "/views/xxx/components/cron-simple/index.vue";components: {CronSimple}<el-dialog title"调度CRON"v-if"cronV…

乒乓球烧拍日记之三蝴蝶蓝芳碳

朋友给了我个蝴蝶成品拍&#xff0c;要更换胶皮&#xff0c;底板是蓝芳碳磕碰很严重&#xff0c;木材都没了&#xff0c;没法补。淋巴面材&#xff0c;成品拍胶水很牢固非常难去除 把蓝芳碳纤维去除下毛边&#xff0c;然后用乳胶胶水填补缺失部分。(https://img-blog.csdnimg.…

高德地图如何标注店铺名称和位置信息?

在当今数字化和信息化的市场环境中&#xff0c;商家不仅需要提供优质的商品和服务&#xff0c;还需要通过多种方式来提升店铺的线上可见度和顾客体验。其中&#xff0c;在地图上准确标注店铺名称和位置信息已成为商家不可忽视的重要环节。而高德地图作为国内领先的导航和位置服…

构建品牌影响力:知识库工具在市场营销中的创新应用

在当今这个信息爆炸的时代&#xff0c;品牌影响力成为了企业市场竞争力的核心要素。为了有效提升品牌影响力&#xff0c;企业不仅需要精准的市场定位和优质的产品服务&#xff0c;还需要借助高效、智能的知识库工具来优化其市场营销策略。本文将探讨知识库工具在市场营销中的创…

HTML 文档规范与解析模式:DOCTYPE、<html> 标签以及结构化页面

文章目录 `<!DOCTYPE html>` 文档类型声明标准模式与怪异模式HTML5 的简化声明`<html>` 标签`<head>` 标签`<body>` 标签小结<!DOCTYPE html> 文档类型声明 在 HTML 文档中,<!DOCTYPE html> 是一个重要的文档类型声明,主要用于告知浏览…

YOLOv5之Common.py

文章目录 1.学习目的2.网络模型![在这里插入图片描述](https://i-blog.csdnimg.cn/direct/67b8dbd00c9b4034ba370fc8b8a6031a.jpeg)3.common.py分析 1.学习目的 YOLOv5中最关键一个模型类 2.网络模型 3.common.py分析 # Ultralytics YOLOv5 &#x1f680;, AGPL-3.0 license…

【设计模式】如何用C++实现依赖倒置

【设计模式】如何用C实现依赖倒置 一、什么是依赖倒置&#xff1f; 依赖倒置原则&#xff08;Dependency Inversion Principle&#xff0c;DIP&#xff09;是SOLID面向对象设计原则中的一项。它的核心思想是&#xff1a; 高层模块不应该依赖于低层模块&#xff0c;两者都应该…

2、liunx网络基础

一、TCP/IP协议概述 Linux服务器默认网卡配置文件在/etc/sysconfig/network-scripts/下&#xff0c;命名的名称一般为:ifcfg-eth0 ifcfg-eth1 &#xff0c;eth0表示第一块网卡&#xff0c;eth1表示第二块网卡&#xff0c;依次类推。一般DELL R720标配有4块千兆网卡。 TCP/IP&a…

MySQL的SQL语句之触发器的创建和应用

触发器 Trigger 一.触发器 作用&#xff1a;当检测到某种数据表发生数据变化时&#xff0c;自动执行操作&#xff0c;保证数据的完整性&#xff0c;保证数据的一致性。 1.创建一个触发器 如上图所示&#xff0c;查看这个create的帮助信息的时候&#xff0c;这个create trig…

2016年ATom-1活动期间航班的每10秒一次的碳 monoxide (CO) 观测数据

目录 简介 摘要 代码 引用 网址推荐 知识星球 机器学习 ATom: Observed and GEOS-5 Simulated CO Concentrations with Tagged Tracers for ATom-1 简介 该数据集包含2016年ATom-1活动期间航班的每10秒一次的碳 monoxide (CO) 观测数据&#xff0c;以及来自戈达德地球观…

Ambari里面添加hive组件

1.创建hive数据库 在添加hive组件之前需要做的事情&#xff0c;先在master这个虚拟机里面创建好hive 先进入虚拟机里面进入mysql 然后输入这个命令看看有没有自己创建的hive数据库 show databases;有的话会显示下面这个样子 没有的同学使用以下命令可以在MySQL中创建hive数…