Mongodb $text详解

在建立文本索引的集合中,使用$text,mongodb能够支持文本检索。本文结合mongodb官方文档详细描述$text的定义,用法,注意事项并实践官网给出的应用举例。

定义

$text在包含文本索引字段的集合中,执行文本检索。

语法

{$text: {$search: <string>,$language: <string>,$caseSensitive: <boolean>,$diacriticSensitive: <boolean>}
}

其中,进行文本检索时,必须在$search中指定检索关键字。其他参数都是可选参数。

  • $text定义了文本检索的方法
  • $search是字符串类型的参数,定义文本检索关键字
  • $language设置查询时用到的语言,不同的语言单词和词汇的切分可能有差异。默认使用逗号,句号,空格等标点符号进行词汇切分。 但mongodb的文本检索,不支持中文。
  • $caseSensitive, 布尔类型的变量。定义文本检索是否大小写敏感。
  • $diacriticSensitie, 布尔类型的变量。定义文本检索是否对变音词敏感。

结合mongodb官网给出的语法,给出在查询方法中文本检索的方法。

db.collection.find({$text: {$search: <string>,$language: <string>,$caseSensitive: <boolean>,$diacriticSensitive: <boolean>}
})

聚合操作中,需要将文本检索放到match方法中

db.collection.aggregate().match({$text: {$search: <string>,$language: <string>,$caseSensitive: <boolean>,$diacriticSensitive: <boolean>}})

使用限制

使用mongodb进行文本检索时,有下面的限制

  • 每个查询语句中,最多只能定义一个$text表达式
  • $text查询不能出现在$nor表达式, $elemMatch查询表达式和$elemMatch投射中
  • 在$or表达式中使用$text进行文本检索时,$or表达式中所有的查询条件都要有索引。
  • 使用$text查询时,不可以使用hint指定查询时用到的索引。
  • 包含$text表达式的查询中,不能使用$natural排序
  • 不能够将文本检索与其他需要特殊索引的查询结合使用。如不可以将$text和$near操作符结合使用。
  • 视图中,不支持$text进行文本检索。
  • $text不支持使用mongodb API 创建索引。

在聚合操作中,使用$text, 有额外的限制。

  • $text表达式必须在match第一个查询条件,并且只能出现一次
  • $text表达式,不能出现在$or或者$nor表达式中
  • 文本检索结果中,默认不是按照匹配分数排列。如果需要使用匹配分数排列,需要$meta获取分数,并指定排列顺序。

$search字段

用户可以在$search字段后定义查询关键字。mongodb的$text文本检索中,more会将逗号,句号,空格等标点符号作为分词符,除了减号('-')和转移的双引号(\")。

查询关键字

在$search字段中,用户添加的查询关键字,默认会使用标点符号和空格拆分开,按照单个词语进行$or查询。如果使用用户输入的整个关键字作为查询条件,需要使用转义的双引号将查询关键字包起来。如

"\"ssl certificate\""

当没有\"时,会按照ssl和certificate两个关键字,单独查询。

当用户期望查询中只对部分字段进行自动分词时,用户可以将不需要分词的部分,使用\"包围起来。

如下面的查询条件中,ssl certificate整体做为一个查询关键字, authority, key作为单独的关键字进行查询。

"\"ssl certificate\" authority key"

排除关键字

在$search中使用减号(-),用户可以定义查询返回不包含关键字的结果。

下面的语句中,在关键字coffee前添加了减号,则表示查询出包含java或shop,但不包含coffee的文档数据。

db.stores.find({$text: {$search: "java shop -coffee"}})

排除关键字使用时,有下面两个注意事项

  • 在$search字段中,只使用减号排除字段时,文本检索不会返回任何文档
  • 在单词中的减号,不会被用作排除关键字,但会被看做分隔符号。使用减号排除关键字时,需要在减号前添加空格。

文字匹配

停止单词

在英语中,助词the,连词and等词语,在按照句子成分拆分时,会被看做拆分的符号。在mongodb文本检索中,并不会按照这样的成分进行拆分,只是按照标点符号进行简单的拆分。

词干

在大小写和注音符号不敏感的文本检索中,$text操作符匹配完整的单词。所以当一个文档中包含字段值blueberry, 使用blue作为关键字检索时,并不会返回该文档。 但使用blueberry 或blueberries会匹配出该文档。

在大小写敏感的查询中,后缀词干包含大写字母时,文本检索需要精确匹配。

在注音符号敏感的查询中,后缀词干包含注音符号或标记时,文本检索需要精确匹配。

字母敏感查询

文本检索中,指定$caseSensitive: true, mongodb匹配过程中会检查字段的字母大小写。大小写与查询关键词一致的文档才会被返回。

字母敏感查询执行顺序

当用户在文本检索中,指定大小写敏感时,即$caseSensitive: true时, 文本检索会分成下面两个过程执行。

  1. 按照用户指定的关键字,进行没有大小写敏感和注音符号的文本查询
  2. 在返回的文档当中,按照用户指定的关键字字母大小写顺序,过滤到不符合的文档。

由此可以看出,当用户指定大小写敏感时,mongodb将文本检索分成了两个过程。所以这种查询会对查询的性能产生影响。

注音符号敏感查询

与大小写敏感类似,当用户指定注音符号敏感时,mongodb的文本检索也分为了两个过程。先按照不敏感的关键字查询出结果,然后在过滤掉不符合用户关键字中注音的文档。当然,注音符号敏感也会影响mongodb文本检索的性能。

文本匹配评分

使用$text做文本检索时。mongodb会为集合中的文档文字索引计算出与查询关联词中的相关性评分。使用{$meta: "textScore"},可以获得这个评分信息。

应用举例

创建集合articles, 并添加文本索引

db.articles.createIndex({subject: "text"})db.articles.insertMany([{ _id: 1, subject: "coffee", author: "xyz", views: 50 },{ _id: 2, subject: "Coffee Shopping", author: "efg", views: 5 },{ _id: 3, subject: "Baking a cake", author: "abc", views: 90  },{ _id: 4, subject: "baking", author: "xyz", views: 100 },{ _id: 5, subject: "Café Con Leche", author: "abc", views: 200 },{ _id: 6, subject: "Сырники", author: "jkl", views: 80 },{ _id: 7, subject: "coffee and cream", author: "efg", views: 10 },{ _id: 8, subject: "Cafe con Leche", author: "xyz", views: 10 }])

单个单词查询

db.articles.find({$text: {$search: "coffee"}})

匹配多个单词,mongodb默认使用空格,逗号等将用户输入的"bake coffee cake"拆分成3个关键字并进行or查询,匹配到任意一个关键字的文档都会被查询出来

db.articles.find({$text: {$search: "bake coffee cake"}})

使用转义双引号\",匹配带有标点符号和空格的查询关键字。使用转义双引号将关键字包围起来,mongodb不会对查询关键字进行拆分,而是作为整体去查询。

db.articles.find({$text: {$search: "\"coffee shop\""}})

使用转义的单引号,mongodb还是对查询关键字进行拆分。两个查询返回结果一致

db.articles.find({$text: {$search: "\'coffee shop\' \'cafe con Leche\'"}})db.articles.find({$text: {$search: "coffee shop cafe con Leche"}})

使用减号,排除关键字

db.articles.find({$text: {$search: "coffee -shop"}})

指定文本检索时使用的语言

db.articles.find({$text: {$search: "leche", $language: "es"}})

使用带有注音标记符的关键字查询

db.articles.find({$text: {$search: "сы́рники CAFÉS"}})

大小写敏感查询

db.articles.find({$text: {$search: "Coffee", $caseSensitive: true}})db.articles.find({$text: {$search: "\"Café Con Leche\"", $caseSensitive: true}})db.articles.find({$text: {$search: "Coffee -shop", $caseSensitive: true}})

注音标记符敏感查询

db.articles.find( { $text: { $search: "CAFÉ", $diacriticSensitive: true } } )db.articles.find({ $text: { $search: "leches -cafés", $diacriticSensitive: true } }
)

获取mongodb计算的相似度

db.articles.find({ $text: {$search: "cake"}},{ score: {$meta: "textScore"}})

按照相似度排序,排序是,score字段名称可以是任意合法名称

db.articles.find({ $text: {$search: "coffee"}},{ score: {$meta: "textScore"}}
).sort({ score: {$meta: "textScore"}})

按照相似度排序并限制返回数量

db.articles.find({ $text: {$search: "coffee"}},{ score: {$meta: "textScore"}}
).sort({ score: {$meta: "textScore"}}).limit(2)

添加其他查询条件

db.articles.find({author: 'xyz', $text: {$search: "coffee"}},{ score: {$meta: "textScore"}}
).sort({date: 1, score: {$meta: "textScore"}}).limit(2)

聚合操作中使用文本检索

db.articles.aggregate([{$match: {$text: { $search: "cake tea"}}},{$sort: { score: {$meta:"textScore"}}},{$project: {subject: 1, _id: 0}}]
)db.articles.aggregate([{$match: {$text: { $search: "cake tea"}}},{$project: {subject: 1, _id: 0, score:  { $meta: "textScore"}}},{$match: {score: {$gt: 0.7}}}]
)db.articles.aggregate([{$match: {$text: { $search: "cake tea", $language: 'es'}}},{$project: {subject: 1, _id: 0, score:  { $meta: "textScore"}}},{$match: {score: {$gt: 0.7}}}]
)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/695950.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

苍穹外卖Day02——总结2

前期文章 文章标题地址苍穹外卖Day01——总结1https://blog.csdn.net/qq_43751200/article/details/135466359?spm1001.2014.3001.5501苍穹外卖Day01——解决总结1中存在的问题https://lushimeng.blog.csdn.net/article/details/135473412 总结2 前期文章1. 新增员工模块1.1 …

Linux-Project

1.【minishare】 1.1项目要求 1.1.1编写项目文档 1.项目需求项目背景描述实现该原因及背景需求分析分析项目要求(不涉及技术)概要设计根据需求设计相关技术实现功能软件框图:各个模块之间的功能及其关系模块设计具体每个功能的模块设计流程图:每个模块实现功能的具体步骤及方…

抖店类目怎么选?七大类目详尽分析,总有一个适合你!

我是电商珠珠 在类目的选择上&#xff0c;很多人都会大意。认为类目跟风选一个热销的&#xff0c;后期着重选品就可以了。但做店铺最重要的就是类目&#xff0c;类目作为一个店铺的方向&#xff0c;决定着店铺的流量和后期的订单量。所谓的确定类目&#xff0c;就相当于你写作…

分布式学习Day5

文章目录 初始ES介绍倒排索引ES和MYSQL对比安装ES及其组件1.1.创建网络1.2.加载镜像1.3.运行2.1.部署 分词器 操作索引库文档操作RestAPI介绍 初始ES 介绍 倒排索引 ES和MYSQL对比 安装ES及其组件 1.1.创建网络 因为我们还需要部署kibana容器&#xff0c;因此需要让es和kiban…

【鸿蒙 HarmonyOS 4.0】网络请求

一、介绍 资料来自官网&#xff1a;文档中心 网络管理模块主要提供以下功能&#xff1a; HTTP数据请求&#xff1a;通过HTTP发起一个数据请求。WebSocket连接&#xff1a;使用WebSocket建立服务器与客户端的双向连接。Socket连接&#xff1a;通过Socket进行数据传输。 日常…

如何在Linux搭建Inis网站,并发布至公网实现远程访问【内网穿透】

如何在Linux搭建Inis网站&#xff0c;并发布至公网实现远程访问【内网穿透】 前言1. Inis博客网站搭建1.1. Inis博客网站下载和安装1.2 Inis博客网站测试1.3 cpolar的安装和注册 2. 本地网页发布2.1 Cpolar临时数据隧道2.2 Cpolar稳定隧道&#xff08;云端设置&#xff09;2.3.…

【Week-P8】YOLOv5-C3模块实现天气识别

YOLOv5-C3模块实现天气识别 一、环境配置二、准备数据三、搭建网络结构-YOLO-C3模块四、开始训练五、查看训练结果六、总结&#xff08;forward函数内部没有调用新增加的层&#xff0c;训练所使用的网络结构还是原来的结构&#xff0c;注意通道参数的一致&#xff0c;训练结果待…

MATLAB 导出可编辑的eps格式图像

任务描述&#xff1a;部分期刊要求提交可编辑的eps格式图像&#xff0c;方便美工编辑对图像进行美化 我试了直接print或者在figure窗口导出&#xff0c;发现导出的文件放到Adobe AI中并不能编辑&#xff0c;经Google找到解决办法&#xff1a; %EPS exportgraphics(gcf,myVect…

79.SpringBoot的核心注解

一、SpringBoot的核心注解 SpringBootApplication注解&#xff1a;这个注解标识了一个SpringBoot工程&#xff0c;它实际上是另外三个注解的组合&#xff0c;这三个注解是&#xff1a;SpringBootConfiguration&#xff1a;这个注解实际就是一个Configuration&#xff0c;表示启…

细说MSVC和MinGW生成库的差异及如何相互调用

文章目录 MSVC和MinGW的区别静态库和动态库的调用MSVC和MinGW 静态库互相调用MSVC和MinGW 动态库互相调用MSVC不同版本静态库、动态库调用MinGW不同版本动态库、静态库兼容性MSVC和MinGW的区别 MSVC是微软官方提供的C/C++编译器,与Windows平台紧密集成,得到微软官方的支持和…

Linux中的各类时间 与 find命令的常用参数

之前研究wal日志清理的副产物&#xff0c;wal日志名被修改后文件的哪个时间会变&#xff1f;应该如何删除&#xff1f;由此整理一下Linux中atime、mtime、ctime的区别&#xff0c;以及find的常见用法。 一、 Linux中的各类时间 1. 各类时间的定义 Linux中有三种用于文件时间戳…

逻辑回归的输出值为什么可以作为概率?

为什么逻辑回归的输出值可以作为概率&#xff1f;或者说为什么逻辑回归要求假设因变量符合伯努利分布&#xff1f; 这是因为逻辑回归&#xff08;Logistic Regression&#xff09;的Sigmoid函数是符合广义线性模型&#xff08;General Linear Model&#xff09;的伯努利分布&a…

解决Uncaught SyntaxError: Cannot use import statement outside a module(at XXX)报错

报错原因&#xff1a;这个错误通常是因为你正在尝试在一个不支持 ES6 模块语法的环境中使用 import 语句。这可能是因为你的代码是在一个只支持 CommonJS 或 AMD 模块系统的环境中运行的&#xff0c;或者你的代码运行的环境没有正确配置以支持 ES6 模块。如果是在浏览器环境&am…

2024最佳住宅代理IP服务商推荐

跨境出海已成为了近几年的最热趋势&#xff0c;大批量的企业开始开拓海外市场&#xff0c;而海外电商领域则是最受欢迎的切入口。新兴的tiktok、Temu&#xff0c;老牌的Amazon、Ebay&#xff0c;热门的Etsy、Mecari等等都是蓝海一片。跨境入门并不难&#xff0c;前期的准备中不…

UE4 C++联网RPC教程笔记(三)(第8~9集)完结

UE4 C联网RPC教程笔记&#xff08;三&#xff09;&#xff08;第8~9集&#xff09;完结 8. exe 后缀实现监听服务器9. C 实现监听服务器 8. exe 后缀实现监听服务器 前面我们通过蓝图节点实现了局域网连接的功能&#xff0c;实际上我们还可以给项目打包后生成的 .exe 文件创建…

LeetCode 0106.从中序与后序遍历序列构造二叉树:分治(递归)——五彩斑斓的题解(若不是彩色的可以点击原文链接查看)

【LetMeFly】106.从中序与后序遍历序列构造二叉树&#xff1a;分治&#xff08;递归&#xff09;——五彩斑斓的题解&#xff08;若不是彩色的可以点击原文链接查看&#xff09; 力扣题目链接&#xff1a;https://leetcode.cn/problems/construct-binary-tree-from-inorder-an…

代码世界的构建有一个不可或缺的支柱(如何让代码更加稳健)

目录 一.概念引入 二.属性描述符的常见用法 三.实例运用(数据验证) 三.基于JS的属性描述符 使用中常见的问题 最近学JavaScript的过程中,有幸学到了一个新的知识点----属性描述符,尽管它在业务代码中可能并不常见,但是许多库源码中都有它的身影,比如vue 一.概念引入 属性…

FSQ: FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE

Paper name FINITE SCALAR QUANTIZATION: VQ-VAE MADE SIMPLE Paper Reading Note Paper URL: https://arxiv.org/abs/2309.15505 Code URL: (官方 jax 实现) https://github.com/google-research/google-research/tree/master/fsq(pytorch 实现) https://github.com/luci…

OSPF综合实验详解

一、实验要求 1&#xff0c;R4为ISP&#xff0c;其上只能配置IP地址&#xff1b;R4与其他所有直连设备间均使用公有IP&#xff1b; 2&#xff0c;R3-R5/6/7为MGRE环境&#xff0c;R3为中心站点&#xff1b; 3&#xff0c;整个OSPF环境IP基于172.16..8/16划分&#xff1b; 4…

外观设计专利的特征和特点

许多人往往将商品包装与外观设计混同起来&#xff0c;其实两者的区别很大&#xff0c;外观设计由专利法予以保护&#xff0c;简单说&#xff0c;外观设计是指工业品的外观设计&#xff0c;也就是工业品的式样&#xff0c;包括形状、图案、色彩等。下面介绍外观设计专利的特征和…