mysql ngram_MySQL ngram全文解析器

本教程将向您展示如何使用MySQL ngram全文解析器来支持中文,日文,韩文等表意语言的全文搜索。

MySQL ngram全文解析器简介

MySQL内置的全文解析器使用空格确定单词的开始和结束。当涉及汉语,日语或韩语等表意语言语言时,这是一个限制,因为这些语言不使用分词符。

为了解决这个问题,MySQL提供了ngram全文解析器。自MySQL5.7.6版起,MySQL将ngram全文解析器作为内置的服务器插件,这意味着当MySQL数据库服务器启动时,MySQL会自动加载该插件。 MySQL支持用于InnoDB和MyISAM存储引擎的ngram全文解析器。

根据定义,ngram是来自文本序列的多个字符的连续序列。 ngram全文解析器的主要功能是将文本序列标记为n个字符的连续序列。

以下说明了ngram全文解析器如何标记不同值n的文本序列:

n = 1: 'm','y','s','q','l'

n = 2: 'my', 'ys', 'sq','ql'

n = 3: 'mys', 'ysq', 'sql'

n = 4: 'mysq', 'ysql'

n = 5: 'mysql'

使用 ngram 解析器创建FULLTEXT索引

要创建使用ngram全文解析器的FULLTEXT索引,可以在CREATE TABLE,ALTER TABLE或CREATE INDEX语句中添加WITH PARSER ngram。

例如,以下语句创建新的帖子表,并将标题和正文列添加到使用ngram全文解析器的FULLTEXT索引。

USE testdb;

CREATE TABLE posts (

id INT PRIMARY KEY AUTO_INCREMENT,

title VARCHAR(255),

body TEXT,

FULLTEXT ( title , body ) WITH PARSER NGRAM

) ENGINE=INNODB CHARACTER SET UTF8;

以下INSERT语句赂posts表中插入一个新行:

SET NAMES utf8;

INSERT INTO posts(title,body)

VALUES('MySQL全文搜索','MySQL提供了具有许多好的功能的内置全文搜索'),

('MySQL教程','学习MySQL快速,简单和有趣');

请注意,SET NAMES语句设置客户端和服务器将用于发送和接收数据的字符集; 在本示例中,它使用的是utf8。

要查看ngram如何标记文本,请使用以下语句:

SET GLOBAL innodb_ft_aux_table="testdb/posts";

SELECT

*

FROM

information_schema.innodb_ft_index_cache

ORDER BY doc_id , position;

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

information_schema.innodb_ft_index_cache

ORDER BY doc_id , position;

+------+--------------+-------------+-----------+--------+----------+

| WORD | FIRST_DOC_ID | LAST_DOC_ID | DOC_COUNT | DOC_ID | POSITION |

+------+--------------+-------------+-----------+--------+----------+

| my | 2 | 3 | 2 | 2 | 0 |

| ys | 2 | 3 | 2 | 2 | 1 |

| sq | 2 | 3 | 2 | 2 | 2 |

| ql | 2 | 3 | 2 | 2 | 3 |

| l全 | 2 | 2 | 1 | 2 | 4 |

| 全文 | 2 | 2 | 1 | 2 | 5 |

| 文搜 | 2 | 2 | 1 | 2 | 8 |

| 搜索 | 2 | 2 | 1 | 2 | 11 |

| ql | 2 | 3 | 2 | 2 | 18 |

| my | 2 | 3 | 2 | 2 | 18 |

| ys | 2 | 3 | 2 | 2 | 18 |

| sq | 2 | 3 | 2 | 2 | 18 |

| l提 | 2 | 2 | 1 | 2 | 22 |

| 提供 | 2 | 2 | 1 | 2 | 23 |

| 供了 | 2 | 2 | 1 | 2 | 26 |

| 了具 | 2 | 2 | 1 | 2 | 29 |

| 具有 | 2 | 2 | 1 | 2 | 32 |

| 有许 | 2 | 2 | 1 | 2 | 35 |

| 许多 | 2 | 2 | 1 | 2 | 38 |

| 多好 | 2 | 2 | 1 | 2 | 41 |

| 好的 | 2 | 2 | 1 | 2 | 44 |

| 的功 | 2 | 2 | 1 | 2 | 47 |

| 功能 | 2 | 2 | 1 | 2 | 50 |

| 能的 | 2 | 2 | 1 | 2 | 53 |

| 的内 | 2 | 2 | 1 | 2 | 56 |

| 内置 | 2 | 2 | 1 | 2 | 59 |

| 搜索 | 2 | 2 | 1 | 2 | 60 |

| 文搜 | 2 | 2 | 1 | 2 | 60 |

| 全文 | 2 | 2 | 1 | 2 | 60 |

| 置全 | 2 | 2 | 1 | 2 | 62 |

| my | 2 | 3 | 2 | 3 | 0 |

| ys | 2 | 3 | 2 | 3 | 1 |

| sq | 2 | 3 | 2 | 3 | 2 |

| ql | 2 | 3 | 2 | 3 | 3 |

| l教 | 3 | 3 | 1 | 3 | 4 |

| 教程 | 3 | 3 | 1 | 3 | 5 |

| 学习 | 3 | 3 | 1 | 3 | 12 |

| 习m | 3 | 3 | 1 | 3 | 15 |

| sq | 2 | 3 | 2 | 3 | 18 |

| ql | 2 | 3 | 2 | 3 | 18 |

| my | 2 | 3 | 2 | 3 | 18 |

| ys | 2 | 3 | 2 | 3 | 18 |

| l快 | 3 | 3 | 1 | 3 | 22 |

| 快速 | 3 | 3 | 1 | 3 | 23 |

| 速, | 3 | 3 | 1 | 3 | 26 |

| ,简 | 3 | 3 | 1 | 3 | 29 |

| 简单 | 3 | 3 | 1 | 3 | 32 |

| 单和 | 3 | 3 | 1 | 3 | 35 |

| 和有 | 3 | 3 | 1 | 3 | 38 |

| 有趣 | 3 | 3 | 1 | 3 | 41 |

+------+--------------+-------------+-----------+--------+----------+

50 rows in set

此查询对于故障排除目的很有用。例如,如果一个单词不包括在搜索结果中,则该单词可能没有被编入索引,因为它是一个停止词或者可能是其它原因。

设置ngram令牌大小

在前面的示例可以看到,默认情况下,ngram中的令牌大小(n)为2,要更改令牌大小,请使用ngram_token_size配置选项,值的范围是:1到10。

请注意,较小的令牌大小可使较小的全文搜索索引更快地进行搜索。

因为ngram_token_size是只读变量,因此您只能使用两个选项设置其值:

第一种方式,在启动字符串中:

mysqld --ngram_token_size=1

第二种方式 - 在配置文件中:

[mysqld]

ngram_token_size=1

ngram解析器短语搜索

MySQL将短语搜索转换成ngram短语搜索。 例如,abc被转换为ab bc,它返回包含ab bc和abc的文档。

以下示例显示在posts表中搜索短语:搜索:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('搜索' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('搜索' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

+----+---------------+-------------------------------------------+

1 row in set

用ngram处理搜索结果

自然语言模式

在自然语言模式搜索中,搜索项被转换为ngram值的并集。 假设令牌大小为2或者二进制,则搜索项mysql被转换为我的my ys sq和ql。

SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN natural language MODE);

+----+-----------+---------------------------+

| id | title | body |

+----+-----------+---------------------------+

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+-----------+---------------------------+

1 row in set

布尔模式

在BOOLEAN MODE搜索中,搜索项被转换成ngram短语搜索。 例如:

SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

执行上面查询语句,得到以下结果 -

mysql> SELECT

*

FROM

posts

WHERE

MATCH (title , body) AGAINST ('简单和有趣' IN BOOLEAN MODE);

+----+-----------+---------------------------+

| id | title | body |

+----+-----------+---------------------------+

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+-----------+---------------------------+

1 row in set

ngram通配符搜索

ngram FULLTEXT索引仅包含ngram,因此它不知道短语的开始。执行通配符搜索时,可能会返回意外的结果。

以下规则将应用于使用ngram FULLTEXT搜索索引的通配符搜索:

如果通配符中的前缀短语短于ngram令牌大小,则查询返回所有包含以前缀项为起始的ngram令牌的文档。 例如:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('my*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('my*' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+---------------+-------------------------------------------+

2 rows in set

如果通配符中的前缀短语长于ngram令牌大小,则MySQL将将前缀术语转换为ngram短语,并忽略通配符运算符。 请参阅以下示例:

SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('mysqld*' );

执行上面查询语句,得到以下结果 -

mysql> SELECT

id, title, body

FROM

posts

WHERE

MATCH (title , body) AGAINST ('mysqld*' );

+----+---------------+-------------------------------------------+

| id | title | body |

+----+---------------+-------------------------------------------+

| 1 | MySQL全文搜索 | MySQL提供了具有许多好的功能的内置全文搜索 |

| 2 | MySQL教程 | 学习MySQL快速,简单和有趣 |

+----+---------------+-------------------------------------------+

2 rows in set

在这个例子中,短语“mysqld”被转换为ngram短语:my ys sq ql ld,因此返回包含其中一个短语的所有文档。

处理停止词

ngram解析器不包括在停止词列表中包含停止词的令牌。例如,假设ngram_token_size为2,文档包含abc。 ngram解析器将文档标记为ab和bc。 如果b是一个停用词,则ngram将包含ab和bc,因为它们包含b。

请注意,如果语言不是英语,则必须定义自己的词条列表。 此外,长度大于ngram_token_size的停止词将被忽略。

在本教程中,您已经学会了如何使用MySQL ngram全文解析器来处理表意语言的全文搜索。

¥ 我要打赏

纠错/补充

收藏

加QQ群啦,易百教程官方技术学习群

注意:建议每个人选自己的技术方向加群,同一个QQ最多限加 3 个群。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/471636.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

手机号、姓名、邮箱等合法性验证方法

//邮箱 (BOOL) validateEmail:(NSString *)email{NSString *emailRegex "\\w[a-zA-Z_]?\\.[a-zA-Z]{2,6}";NSPredicate *emailTest [NSPredicate predicateWithFormat:"SELF MATCHES %", emailRegex];return [emailTest evaluateWithObject:email];}//…

zabbix设置mysql登陆免报警_zabbix3.0 监控mysql服务免用户名密码登录的有关问题故障处理详细过程_mysql...

zabbix3.0 监控mysql服务免用户名密码登录的问题故障处理详细过程1,My.cnf中用户名密码无效在azure云上面,使用Zabbix监控mysql中,发现在/usr/local/mysql/my.cnf里面设置的默认用户名密码无效,出不来数据,而且在zabbi…

LeetCode 2018. 判断单词是否能放入填字游戏内(模拟)

文章目录1. 题目2. 解题1. 题目 给你一个 m x n 的矩阵 board ,它代表一个填字游戏 当前 的状态。 填字游戏格子中包含小写英文字母(已填入的单词),表示 空格 的 和表示 障碍 格子的 # 。 如果满足以下条件,那么我…

链表的相关操作

#include<iostream> using namespace std; struct node {int data;node *next; }; //链表的建立&#xff0c;创建有n个结点的链表 node *create(int n) {node *headNULL;node *pNULL;headnew node();phead;cin>>p->data;node *q;while(--n){qnew node();cin>…

qt优点

&#xff08;1&#xff09;优良的跨平台特性。   Qt支持下列操作系统&#xff1a;Microsoft Windows 95/98、Microsoft Windows NT、Linux、Solaris、SunOS、HP&#xff0d;UX、Digital UNIX &#xff08;OSF/1、Tru64&#xff09;、Irix、FreeBSD、BSD/OS、SCO、AIX、OS390和…

LeetCode 2022. 将一维数组转变成二维数组

文章目录1. 题目2. 解题1. 题目 给你一个下标从 0 开始的一维整数数组 original 和两个整数 m 和 n 。 你需要使用 original 中 所有 元素创建一个 m 行 n 列的二维数组。 original 中下标从 0 到 n - 1 &#xff08;都 包含 &#xff09;的元素构成二维数组的第一行&#xf…

mysql系统自带示例数据库_MySQL系统自带的数据库information schema

information_schema数据库是MySQL系统自带的数据库&#xff0c;它提供了数据库元数据的访问方式。感觉information_schema就像是MySQL实例的一个百科全书&#xff0c;记录了数据库当中大部分我们需要了结的信息&#xff0c;比如字符集&#xff0c;权限相关&#xff0c;数据库实…

Json对象与Json字符串互转(4种转换方式)

最近有用到php的json字符串要转成js对象&#xff0c;以前一直用jq或者eval&#xff0c;又发现了其他的方法&#xff0c;记录下. 1>jQuery插件支持的转换方式&#xff1a; 复制代码代码如下:$.parseJSON( jsonstr ); //jQuery.parseJSON(jsonstr),可以将json字符串转换成jso…

LeetCode 2023. 连接后等于目标字符串的字符串对

文章目录1. 题目2. 解题1. 题目 给你一个 数字 字符串数组 nums 和一个 数字 字符串 target &#xff0c;请你返回 nums[i] nums[j] &#xff08;两个字符串连接&#xff09;结果等于 target 的下标 (i, j) &#xff08;需满足 i ! j&#xff09;的数目。 示例 1&#xff1a…

What day is that day?(快速幂,打表找周期,或者求通项公式)

有些题怎么都解不出来&#xff0c;这时候可以打表&#xff0c;找规律&#xff0c;求通项公式等&#xff0c;这些方法让人拍手叫绝&#xff0c;真不错…… Description Its Saturday today, what day is it after 11 22 33 ... NN days? Input There are multiple test cas…

mysql中数据定义语言_SQL数据定义语言(DDL)

数据库模式定义语言DDL(DataDefinition Language)&#xff0c;是用于描述数据库中要存储的现实世界实体的语言。一个数据库模式包含该数据库中所有实体的描述定义。这些定义包括结构定义、操作方法定义等。DDL描述的模式&#xff0c;必须由计算机软件进行编译&#xff0c;转换为…

瞎搞

declare a int,b int,c int set a (select top 1 a from Table_1 ) set b (select top 1 b from Table_1 ) set c (select top 1 c from Table_1 ) if(a>b and a>c) beginprint(a的值最大)endif(b>a and b>c) beginprint(b的值最大)endif(c>a and c>b) be…

db2 脚本运行错误返回错误原因_电脑运行错误代码大全,遇到报错请自己对照断电原因所在吧...

电脑在运行的时候&#xff0c;会出现一些代码&#xff0c;软件安装不上啊或电脑使用中蓝屏啊出现的代码&#xff0c;每一次出现问题电脑都会以代码的形式反馈&#xff0c;我们就可以凭借错误代码来判断故障源。小编整理了一些常出现的错误代码和问题分享给大家&#xff0c;希望…

LeetCode 2028. 找出缺失的观测数据

文章目录1. 题目2. 解题1. 题目 现有一份 n m 次投掷单个 六面 骰子的观测数据&#xff0c;骰子的每个面从 1 到 6 编号。 观测数据中缺失了 n 份&#xff0c;你手上只拿到剩余 m 次投掷的数据。 幸好你有之前计算过的这 n m 次投掷数据的 平均值 。 给你一个长度为 m 的整…

Sqlite学习笔记(五)SQLite封锁机制

概述 SQLite虽然是一个轻量的嵌入式数据库&#xff0c;但这并不影响它支持事务。所谓支持事务&#xff0c;即需要在并发环境下&#xff0c;保持事务的ACID特性。事务的原子性&#xff0c;隔离性都需要通过并发控制来保证。那么Sqlite的并发控制是怎样的&#xff0c;如何实现&am…

idea中git如何切换到master_IDEA中Git的使用

原文转载于&#xff1a;https://www.cnblogs.com/javabg/p/8567790.html工作中多人使用版本控制软件协作开发&#xff0c;常见的应用场景归纳如下&#xff1a;假设小组中有两个人&#xff0c;组长小张&#xff0c;组员小袁场景一&#xff1a;小张创建项目并提交到远程Git仓库场…

LeetCode 2032. 至少在两个数组中出现的值(哈希/位运算)

文章目录1. 题目2. 解题2.1 哈希查找2.2 位运算1. 题目 给你三个整数数组 nums1、nums2 和 nums3 &#xff0c;请你构造并返回一个 不同 数组&#xff0c;且由 至少 在 两个 数组中出现的所有值组成。 数组中的元素可以按 任意 顺序排列。 示例 1&#xff1a; 输入&#xff1…

Nginx反向代理配置配置实例

为了节省支出&#xff0c;公司需要将分布在不同机器的站点都迁移到一台机器&#xff0c;而目前不同机器运行的是不同的web服务&#xff0c;部分是nginx&#xff0c;部分是apache&#xff0c;由于牵涉较多rewrite规则&#xff0c;为了节省修改功夫&#xff0c;打算迁移后相应站点…

python装饰器由浅入深_由浅入深理解Python装饰器

前提知识&#xff1a;1、Python里函数也是一种对象&#xff1a;def shout(word"yes"):return word.capitalize()"!"print shout()# outputs : Yes!# As an object, you can assign the function to a variable like any# other objectscream shout# Notic…

LeetCode 2033. 获取单值网格的最小操作数(贪心)

文章目录1. 题目2. 解题1. 题目 给你一个大小为 m x n 的二维整数网格 grid 和一个整数 x 。 每一次操作&#xff0c;你可以对 grid 中的任一元素 加 x 或 减 x 。 单值网格 是全部元素都相等的网格。 返回使网格化为单值网格所需的 最小 操作数。如果不能&#xff0c;返回 …