pgsql_全文检索_使用空间换时间的方法支持中文搜索

pgsql_全文检索_使用空间换时间的方法支持中文搜索

一、环境

  • PostgreSQL 14.2, compiled by Visual C++ build 1914, 64-bit

二、引言

提到全文检索首先想到的就是ES(ElasticSearch)和Lucene,专业且强大。对于一些小众场景对于搜索要求不高,数据量也不大的情况,
上ES等有些繁重,增加工作量还增加了后期运维成本。
PgSql也支持全文检索原理和ES一样,支持分词和反向索引(倒排索引),比如数据量只有几十万时,可以考虑直接使用DB去做查询。

三、帮助文档

  • 全文检索
  • 控制文本搜索
  • 文本搜索类型

四、概念

ES执行全文检索的逻辑是:

  1. 需要对目标内容(文档)做分词,分词是将内容拆分成各个独立的词,每个词会有词频和在内容中的位置等信息;
  2. 使用分词后的内容生成索引文件,这个就是生成倒排索引的阶段,是每个词关联到不同的文档;
  3. 查询时需要对查询关键词进行分词,跟第一步很像只带分词的文档长度小了很多;
  4. 使用查询关键词匹配索引文件,按照词频、相似度、权重等指标对目标文档检索并按得分对文档排序;
  5. 返回最终匹配的文档(记录);

五、PgSQL全文检索基础

PgSQL全局检索前需要了解三个基础概念:文档、查询、操作符。
tsvector类型表示一个为文本搜索优化的形式下的文档,tsquery类型表示一个文本查询。

  • tsvector(文档)类型

    tsvector是一个数据类型,和varchar、integer类似。一个tsvector值是一个排序的可区分词位的列表,记录了分词后的词条、词频、词位、权重信息。
SELECT to_tsvector('hello word!hello word!');
------
'hello':1,3 'word':2,4

其中hello是词条后边的数据是词位,逗号分割的是多个词条在文档中的位置,词位的数量可以反应该词在文档中的词频。

  • tsquery(查询)类型

    对多个查询关键词做与或非逻辑表达,支持的逻辑操作符有:&(与)、|(或)和!(非);
select to_tsquery('hello & word');
------
'hello' & 'word'
  • 匹配操作符@@

    使用"查询"检索"文档",返回一个true/false的结果,标记操作是否匹配;
SELECTto_tsvector('hello word!') @@ query q1,to_tsvector('hello word1!') @@ query q2,to_tsvector('hello word2!') @@ query q3
from to_tsquery('hello & word') query;
------
q1      q2      q3
true	false	false

六、排序&计算匹配得分

  • 排序有两个函数支持:ts_rank()、ts_rank_cd()
    他们都会参考词频、相似度,但ts_rank_cd()会计算覆盖密度排名。
-- 计算文档中同时包含hello和word的文档得分
SELECT ts_rank_cd(to_tsvector('hello word!'), to_tsquery('hello & word'));
SELECT ts_rank(to_tsvector('hello word!'), to_tsquery('word & word'));
-- 
SELECT ts_rank_cd (to_tsvector('hello word!'), query),ts_rank (to_tsvector('hello word!'),query)
from  to_tsquery('hello & word') query;

七、控制权重

tsvector是一个标准的DB类型,是类型就可以做显示转换,在pgsql中类型显示转换的操作符是两个冒号(:😃。
前面用到的to_tsvector()函数,默认会按照英文的语法使用空格对文档进行分词,把文档分词后做词频统计。
pgsql支持的权重值有四个,按照权重从大到小分别是:A、 B、C、D。

  • 将字符串转tsvector类型
    • 原始文档“hello word! hello word!”
    • 分词 select to_tsvector(‘hello word! hello word!’);
    • 自定义权重:select ‘hello:1A,3B word:2C,4D’::tsvector;
      • 其中的权重值A、B、C、D是人为加的,需要满足下列格式要求;
      • 1.多个词条用空格分隔;
      • 2.每个词条后用冒号(:)分隔,冒号左边是词右边是词位、词频、权重信息;
--文档分词
select to_tsvector('hello word! hello word!');
select 'hello:1A,3B word:2C,4D'::tsvector;
--词频影响得分
SELECTts_rank(to_tsvector('hello word!'),query) rank1,ts_rank(to_tsvector('hello word! hello word!'),query) rank2
from to_tsquery('hello & word') query;
----
rank1       rank2
0.09910322	0.34000534

rank2中word出现两次,所以在计算得分时rank2比rank1高。

--权重影响得分
SELECTts_rank('hello:1,3 word:2,4'::tsvector,query) rank1,ts_rank('hello:1A word:2A'::tsvector,query) rank2
from to_tsquery('word') query;
----------
rank1       rank2
0.075990885	0.6079271

word词条在rank1的词频,比rank2词频高,但通过权重控制,最终词频低的得分变高了。

八、高亮显示

高亮显示比较简单使用 tsquery 类型对文档内的关键字加上html的b标签。

--高亮
SELECT 'ts_headline',ts_headline ('hello word!hello word!',query)
from  to_tsquery('word') query;
------
hello <b>word</b>!hello <b>word</b>!

九、提高性能使用 GIN 和 GiST 索引

有两种索引可以被用来加速全文搜索。注意全文搜索并非一定需要索引,但是在一个定期会被搜索的列上,通常需要有一个索引。

  • CREATE INDEX name ON table USING GIN(column);
    • 创建一个基于 GIN(通用倒排索引)的索引。column必须是tsvector类型。
  • CREATE INDEX name ON table USING GIST(column);
    • 创建一个基于 GiST(通用搜索树)的索引。column可以是tsvector或tsquery类型。

GIN 索引是更好的文本搜索索引类型。作为倒排索引,每个词(词位)在 其中都有一个索引项,其中有压缩过的匹配位置的列表。多词搜索可以找到 第一个匹配,然后使用该索引移除缺少额外词的行。GIN 索引只存储 tsvector值的词(词位),并且不存储它们的权重标签。因此, 在使用涉及权重的查询时需要一次在表行上的重新检查。

一个 GiST 索引是有损的,这表示索引可能产生假匹配,并且有必要检查真实的表行来消除这种假匹配(PostgreSQL在需要时会自动做这一步)。GiST 索引之所以是有损的,是因为每一个文档在索引中被表示为一个定长的签名。该签名通过哈希每一个词到一个 n 位串中的一个单一位来产生,通过将所有这些位 OR 在一起产生一个 n 位的文档签名。当两个词哈希到同一个位位置时就会产生假匹配。如果查询中所有词都有匹配(真或假),则必须检索表行查看匹配是否正确。

GiST 索引可以被覆盖,例如使用INCLUDE子句。 包含的列可以具有没有任何 GiST 操作符类的数据类型。 包含的属性将非压缩存储。

有损性导致的性能下降归因于不必要的表记录(即被证实为假匹配的记录)获取。因为表记录的随机访问是较慢的,这限制了 GiST 索引的可用性。假匹配的可能性取决于几个因素,特别是唯一词的数量,因此推荐使用词典来缩减这个数量。

总结

对于简单的全文检索场景,使用pgsql就可以实现,对于检索的基础概念如文档、查询和操作符,词频、权重、排序、高亮都简单说明。

pgsql默认的to_tsvector()函数只支持使用空格进行分词,对于中文这个函数就不好用了。

对于中文分词有两个方案解决:1>使用pgsql的中文分词插件;2>利用空间换时间的方法,在记录写入db前利用java的jieba等分词组件对文档分词,并按
tsvector格式拼接,独立一列记录分词后的类型。如果需要提高检索效率,考虑在tsvector字段上添加GIN类型索引。

两种方法各有利弊,使用是权衡考虑。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/141432.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

10 Go的映射

概述 在上一节的内容中&#xff0c;我们介绍了Go的结构体&#xff0c;包括&#xff1a;定义结构体、声明结构体变量、使用结构体、结构体关联函数、new、组合等。在本节中&#xff0c;我们将介绍Go的映射。Go语言中的映射&#xff08;Map&#xff09;是一种无序的键值对集合&am…

【Hadoop】MapReduce详解

&#x1f984; 个人主页——&#x1f390;开着拖拉机回家_大数据运维-CSDN博客 &#x1f390;✨&#x1f341; &#x1fa81;&#x1f341;&#x1fa81;&#x1f341;&#x1fa81;&#x1f341;&#x1fa81;&#x1f341; &#x1fa81;&#x1f341;&#x1fa81;&#x1f…

nodejs+vue+python+PHP+微信小程序-安卓-房产中介管理信息系统的设计与实现-计算机毕业设计

目 录 摘 要 I ABSTRACT II 目 录 II 第1章 绪论 1 1.1背景及意义 1 1.2 国内外研究概况 1 1.3 研究的内容 1 第2章 相关技术 3 2.1 nodejs简介 4 2.2 express框架介绍 6 2.4 MySQL数据库 4 第3章 系统分析 5 3.1 需求分析 5 3.2 系统可行性分析 5 3.2.1技术可行性&#xff1a;…

华为笔记本电脑原装win10/win11系统恢复安装教程方法

华为电脑matebook 14原装Win11系统带F10智能还原 安装恢复教程&#xff1a; 1.安装方法有两种&#xff0c;一种是用PE安装&#xff0c;一种是华为工厂包安装&#xff08;安装完成自带F10智能还原&#xff09; 若没有原装系统文件&#xff0c;请在这里获取&#xff1a;https:…

EasyDarwin开源流媒体服务器

文章目录 前言一、EasyDarwin 简介二、EasyDarwin 主要功能特点三、安装部署四、推拉流测试1、进入控制页面2、推流测试3、拉流测试 前言 本文介绍一个十分实用的高性能开源 RTSP 流媒体服务器&#xff1a;EasyDarwin。 一、EasyDarwin 简介 EasyDarwin 是基于 go 语言研发&a…

海康Visionmaster-通讯管理:使用 Modbus TCP 通讯 协议与流程交互

使用 Modbus TCP 通讯协议与视觉通讯&#xff0c;当地址为 0000 的保持型寄存器(4x 寄存器)变为 1 时&#xff0c;触发视觉流程执行一次&#xff0c;同时视觉将地址为 0000 的寄存器复位&#xff08;也即写为 0&#xff09;&#xff0c;视觉流程执行完成后&#xff0c;将结果数…

向量数据库的分类概况

保存和检索矢量数据的五种方法&#xff1a; 像 Pinecone 这样的纯矢量数据库 全文搜索数据库&#xff0c;例如 ElasticSearch 矢量库&#xff0c;如 Faiss、Annoy 和 Hnswlib 支持矢量的NoSQL 数据库&#xff0c;例如 MongoDB、Cosmos DB 和 Cassandra 支持矢量的SQL 数据库&am…

Redis键(Keys)

前言 在 Redis 中&#xff0c;键&#xff08;Keys&#xff09;是非常重要的概念&#xff0c;它们代表了存储在数据库中的数据的标识符。对键的有效管理和操作是使用 Redis 数据库的关键一环&#xff0c;它直接影响到数据的存取效率、系统的稳定性和开发的便利性。 本文将深入…

如何将本地项目推送到gitee仓库

本地项目推送到gitee仓库的两种方式&#xff1a; 一、新建gitee空仓库&#xff0c;然后git clone到本地&#xff0c;然后把代码复制进去提交 1.在gitee创建一个仓库&#xff0c;然后git clone 新建的仓库地址&#xff0c;到本地&#xff1b; 2.把项目代码复制到clone下来的仓…

基于SpringBoot+Redis的前后端分离外卖项目-苍穹外卖(四)

编辑员工和分类模块功能开发 1. 编辑员工1.1 需求分析与设计1.1.1 产品原型1.1.2 接口设计 1.2 代码开发1.2.1 回显员工信息功能1.2.2 修改员工信息功能 1.3 功能测试 2. 分类模块功能开发2.1 需求分析与设计2.1.1 产品原型2.1.2 接口设计2.1.3 表设计 2.2 代码实现2.2.1 Mappe…

HarmonyOS开发(三):ArkTS基础

1、ArkTS演进 Mozilla创建了JS ---> Microsoft创建了TS ----> Huawei进一步推出ArkTS 从最初的基础逻辑交互&#xff08;JS&#xff09;,到具备类型系统的高效工程开发&#xff08;TS&#xff09;,再到融合声明式UI、多维状态管理等丰富的应用开发能力&…

OpenCV+计算摄影

图像去噪 cv.fastNlMeansDenoising()-处理单个灰度图像cv.fastNlMeansDenoisingColored()-处理彩色图像。cv.fastNlMeansDenoisingMulti()-处理在短时间内捕获的图像序列&#xff08;灰度图像&#xff09;cv.fastNlMeansDenoisingColoredMulti()-与上面相同&#xff0c;但用于…

【算法训练-链表 零】链表高频算法题看这一篇就够了

一轮的算法训练完成后&#xff0c;对相关的题目有了一个初步理解了&#xff0c;接下来进行专题训练&#xff0c;以下这些题目就是汇总的高频题目 题目题干直接给出对应博客链接&#xff0c;这里只给出简单思路、代码实现、复杂度分析 反转链表 依据难度等级分别为反转链表、…

linux rsyslog日志采集格式设定一

linux rsyslog日志采集格式设定一 1.创建日志接收模板 打开/etc/rsyslog.conf文件,在GLOBAL DIRECTIVES模块下任意位置添加以下内容 命令: vim /etc/rsyslog.conf 测试:rsyslog.conf文件结尾添加以下内容 $template ztj,"/var/log/%hostname%/%programname%.log&…

Crypto | Affine password 第二届“奇安信”杯网络安全技能竞赛

题目描述&#xff1a; 明文经过仿射函数y3x9加密之后变为JYYHWVPIDCOZ&#xff0c;请对其进行解密&#xff0c;flag的格式为flag{明文的大写形式}。 密文&#xff1a; JYYHWVPIDCOZ解题思路&#xff1a; 1、使用在线网站直接破解或手工计算破解&#xff0c;获得flag。&#xf…

使用Nginx和uwsgi在自己的服务器上部署python的flask项目

Nginx 是一个高性能的 HTTP 和反向代理服务。其特点是占有内存少&#xff0c;并发能力强&#xff0c;事实上nginx的并发能力在同类型的网页服务器中表现较好。 Nginx 专为性能优化而开发&#xff0c;性能是其最重要的考量指标&#xff0c;实现上非常注重效率&#xff0c;能经受…

React 18 + Hooks +Ts 开发中遇到的问题及解决方案!

这篇文章是用来专门记录关于React 18 Hooks Ts 开发中遇到的问题及解决方案 Q1 问题描述&#xff1a; TS7016: Could not find a declaration file for module js-export-excel. /Users/zhangliangliang/WebstormProjects/daizhang-system-front/node_modules/js-export-exc…

2023/11/13——java基础回顾

JAVA基础 1&#xff0c;String&#xff0c;StringBuffer&#xff0c;StringBuilder有什么区别 StringStringBufferStringBuilder不可变因为value是final&#xff0c;修改值他就会创建一个新的对象&#xff0c;旧的回收可变的其父类(AbstractStringBuilder) value的数组不是fi…

4.CentOS7安装MySQL5.7

CentOS7安装MySQL5.7 2023-11-13 小柴你能看到嘛 哔哩哔哩视频地址 https://www.bilibili.com/video/BV1jz4y1A7LS/?vd_source9ba3044ce322000939a31117d762b441 一.解压 tar -xvf mysql-5.7.26-linux-glibc2.12-x86_64.tar.gz1.在/usr/local解压 tar -xvf mysql-5.7.44-…

lc307.区域和检索 - 数组可修改

暴力解法 创建方法&#xff0c;通过switch-case判断所需要调用的方法。 public class RegionsAndSertches {public static void main(String[] args) {String[] str new String[]{"NumArray", "sumRange", "update", "sumRange"};i…