Sphinx的原理详解和使用

一、Sphinx介绍

8bc8680a1f984326adb0e3fe3a9b5a77.png

1.1 简介

Sphinx是由俄罗斯人Andrew Aksyonoff开发的一个全文检索引擎。意图为其他应用提供高速、低空间占用、高结果 相关度的全文搜索功能。Sphinx可以非常容易的与SQL数据库和脚本语言集成。当前系统内置MySQL和PostgreSQL 数据库数据源的支持,也支持从标准输入读取特定格式 的XML数据。通过修改源代码,用户可以自行增加新的数据源(例如:其他类型的DBMS 的原生支持)。

1.2 Sphinx的主要特性

9957489a72e54e889e511010b6c6e8c2.webp

  • 高速的建立索引(在当代CPU上,峰值性能可达到10 MB/秒);
  • 高性能的搜索(在2 – 4GB 的文本数据上,平均每次检索响应时间小于0.1秒);
  • 可处理海量数据(目前已知可以处理超过100 GB的文本数据, 在单一CPU的系统上可 处理100 M 文档);
  • 提供了优秀的相关度算法,基于短语相似度和统计(BM25)的复合Ranking方法;
  • 支持分布式搜索;
  • 支持短语搜索
  • 提供文档摘要生成
  • 可作为MySQL的存储引擎提供搜索服务;
  • 支持布尔、短语、词语相似度等多种检索模式;
  • 文档支持多个全文检索字段(最大不超过32个);
  • 文档支持多个额外的属性信息(例如:分组信息,时间戳等);
  • 支持断词;
  • 支持单字节编码与UTF-8编码。

1.3 Sphinx工作流程

fd3af46f7df04d82a87517f800aae3cc.png

流程图解释:

  • Database:数据源,是Sphinx做索引的数据来源。因为Sphinx是无关存储引擎、数据库的,所以数据源可以是MySQL、PostgreSQL、XML等数据。
  • Indexer:索引程序,从数据源中获取数据,并将数据生成全文索引。可以根据需求,定期运行Indexer达到定时更新索引的需求。
  • Searchd:Searchd直接与客户端程序进行对话,并使用Indexer程序构建好的索引来快速地处理搜索查询。
  • APP:客户端程序。接收来自用户输入的搜索字符串,发送查询给Searchd程序并显示返回结果。

Sphinx的整个工作流程就是Indexer程序到数据库里面提取数据,对数据进行分词,然后根据生成的分词生成单个或多个索引,并将它们传递给searchd程序。然后客户端可以通过API调用进行搜索。

1.4 Sphinx中文分词

中文的全文检索和英文等latin系列不一样,后者是根据空格等特殊字符来断词,而中文是根据语义来分词。目前大多数数据库尚未支持中文全文检索,如Mysql。故,国内出现了一些Mysql的中文全文检索的插件,做的比较好的有hightman的中文分词。Sphinx如果需要对中文进行全文检索,也得需要一些插件来补充,比如 coreseek 和 sfc 。

二、Sphinx安装和使用 

2.1 安装

1)在安装Sphinx之前需要安装的linux扩展

yum install make gcc g++ gcc-c++ libtool autoconf automake imake mysql-devel libxml2-devel expat-devel

2)下载coreseek,附带压缩包图展示

下载地址:coreseek-4.1-beta.tar.gz · pirnt_recho/coreseek - Gitee.com

7d973926672246e0affa07381f0f2b0d.png

3)安装csft

cd csft-4.1./buildconf.sh./configure --prefix=/usr/local/coreseeksudo make && make install

4)安装mmseg(coreseek的中文库)

cd mmseg-3.2.14./configure --prefix=/usr/local/mmseg3sudo make && make install

5)sphinx.conf 配置文件详细说明

进入Coreseek安装目录,创建sphinx.conf文件(数据库MySQL数据导入配置文件)

cd /usr/local/coreseek/etc/cp sphinx.conf.dist sphinx.conf

Sphinx.conf 配置文件说明

## 数据源src1
source src1
{## 说明数据源的类型。数据源的类型可以是:mysql,pgsql,mssql,xmlpipe,odbc,python## 有人会奇怪,python是一种语言怎么可以成为数据源呢?## python作为一种语言,可以操作任意其他的数据来源来获取数据,更多数据请看:(http://www.coreseek.cn/products-install/python/)type            = mysql## 下面是sql数据库特有的端口,用户名,密码,数据库名等。sql_host        = localhostsql_user        = testsql_pass        =sql_db          = testsql_port        = 3306## 如果是使用unix sock连接可以使用这个。# sql_sock      = /tmp/mysql.sock## indexer和mysql之间的交互,需要考虑到效率和安全性。## 比如考虑到效率,他们两者之间的交互需要使用压缩协议;考虑到安全,他们两者之间的传输需要使用ssl## 那么这个参数就代表这个意思,0/32/2048/32768  无/使用压缩协议/握手后切换到ssl/Mysql 4.1版本身份认证。# mysql_connect_flags   = 32## 当mysql_connect_flags设置为2048(ssl)的时候,下面几个就代表ssl连接所需要使用的几个参数。# mysql_ssl_cert        = /etc/ssl/client-cert.pem# mysql_ssl_key     = /etc/ssl/client-key.pem# mysql_ssl_ca      = /etc/ssl/cacert.pem## mssql特有,是否使用windows登陆# mssql_winauth     = 1## mssql特有,是使用unicode还是单字节数据。# mssql_unicode     = 1 # request Unicode data from server## odbc的dsn串# odbc_dsn      = DBQ=C:\data;DefaultDir=C:\data;Driver={Microsoft Text Driver (*.txt; *.csv)};## sql某一列的缓冲大小,一般是针对字符串来说的。## 为什么要有这么一种缓冲呢?## 有的字符串,虽然长度很长,但是实际上并没有使用那么长的字符,所以在Sphinx并不会收录所有的字符,而是给每个属性一个缓存作为长度限制。## 默认情况下非字符类型的属性是1KB,字符类型的属性是1MB。## 而如果想要配置这个buffer的话,就可以在这里进行配置了。# sql_column_buffers    = content=12M, comments=1M## indexer的sql执行前需要执行的操作。# sql_query_pre     = SET NAMES utf8# sql_query_pre     = SET SESSION query_cache_type=OFF## indexer的sql执行语句sql_query       = \SELECT id, group_id, UNIX_TIMESTAMP(date_added) AS date_added, title, content \FROM documents## 有的时候有多个表,我们想要查询的字段在其他表中。这个时候就需要对sql_query进行join操作。## 而这个join操作可能非常慢,导致建立索引的时候特别慢,那么这个时候,就可以考虑在sphinx端进行join操作了。## sql_joined_field是增加一个字段,这个字段是从其他表查询中查询出来的。## 这里封号后面的查询语句是有要求的,如果是query,则返回id和查询字段,如果是payload-query,则返回id,查询字段和权重。## 并且这里的后一个查询需要按照id进行升序排列。# sql_joined_field  = tags from query; SELECT docid, CONCAT('tag',tagid) FROM tags ORDER BY docid ASC# sql_joined_field  = wtags from payload-query; SELECT docid, tag, tagweight FROM tags ORDER BY docid ASC## 外部文件字段,意思就是一个表中,有一个字段存的是外部文件地址,但是实际的字段内容在文件中。比如这个字段叫做content_file_path。## 当indexer建立索引的时候,查到这个字段,就读取这个文件地址,然后加载,并进行分词和索引建立等操作。# sql_file_field        = content_file_path## 当数据源数据太大的时候,一个sql语句查询下来往往很有可能锁表等操作。## 那么我么就可以使用多次查询,那么这个多次查询就需要有个范围和步长,sql_query_range和sql_range_step就是做这个使用的。## 获取最大和最小的id,然后根据步长来获取数据。比如下面的例子,如果有4500条数据,这个表建立索引的时候就会进行5次sql查询。 ## 而5次sql查询每次的间隔时间是使用sql_ranged_rhrottle来进行设置的。单位是毫秒。# sql_query_range       = SELECT MIN(id),MAX(id) FROM documents# sql_range_step        = 1000# sql_ranged_throttle   = 0## 下面都是些不同属性的数据了## 先要了解属性的概念:属性是存在索引中的,它不进行全文索引,但是可以用于过滤和排序。## uint无符号整型属性sql_attr_uint       = group_id## bool属性# sql_attr_bool     = is_deleted## 长整型属性# sql_attr_bigint       = my_bigint_id## 时间戳属性,经常被用于做排序sql_attr_timestamp  = date_added## 字符串排序属性。一般我们按照字符串排序的话,我们会将这个字符串存下来进入到索引中,然后在查询的时候比较索引中得字符大小进行排序。## 但是这个时候索引就会很大,于是我们就想到了一个方法,我们在建立索引的时候,先将字符串值从数据库中取出,暂存,排序。## 然后给排序后的数组分配一个序号,然后在建立索引的时候,就将这个序号存入到索引中去。这样在查询的时候也就能完成字符串排序的操作。## 这,就是这个字段的意义。# sql_attr_str2ordinal  = author_name## 浮点数属性,经常在查询地理经纬度的时候会用到。# sql_attr_float        = lat_radians# sql_attr_float        = long_radians## 多值属性(MVA)## 试想一下,有一个文章系统,每篇文章都有多个标签,这个文章就叫做多值属性。## 我要对某个标签进行查询过滤,那么在建立查询的时候就应该把这个标签的值放入到索引中。## 这个字段,sql_attr_multi就是用来做这个事情的。# sql_attr_multi        = uint tag from query; SELECT docid, tagid FROM tags# sql_attr_multi        = uint tag from ranged-query; \#   SELECT docid, tagid FROM tags WHERE id>=$start AND id<=$end; \#   SELECT MIN(docid), MAX(docid) FROM tags## 字符串属性。# sql_attr_string       = stitle## 文档词汇数记录属性。比如下面就是在索引建立的时候增加一个词汇数的字段# sql_attr_str2wordcount    = stitle## 字符串字段,可全文搜索,可返回原始文本信息。# sql_field_string  = author## 文档词汇数记录字段,可全文搜索,可返回原始信息# sql_field_str2wordcount   = title## 取后查询,在sql_query执行后立即操作。## 它和sql_query_post_index的区别就是执行时间不同## sql_query_post是在sql_query执行后执行,而sql_query_post_index是在索引建立完成后才执行。## 所以如果要记录最后索引执行时间,那么应该在sql_query_post_index中执行。# sql_query_post        =## 参考sql_query_post的说明。# sql_query_post_index  = REPLACE INTO counters ( id, val ) \#   VALUES ( 'max_indexed_id', $maxid )## 命令行获取信息查询。## 什么意思呢?## 我们进行索引一般只会返回主键id,而不会返回表中的所有字段。## 但是在调试的时候,我们一般需要返回表中的字段,那这个时候,就需要使用sql_query_info。## 同时这个字段只在控制台有效,在api中是无效的。sql_query_info      = SELECT * FROM documents WHERE id=$id## 比如有两个索引,一个索引比较旧,一个索引比较新,那么旧索引中就会有数据是旧的。## 当我要对两个索引进行搜索的时候,哪些数据要按照新的索引来进行查询呢。## 这个时候就使用到了这个字段了。## 这里的例子(http://www.coreseek.cn/docs/coreseek_4.1-sphinx_2.0.1-beta.html#conf-sql-query-killlist)给的非常清晰了。# sql_query_killlist    = SELECT id FROM documents WHERE edited>=@last_reindex## 下面几个压缩解压的配置都是为了一个目的:让索引重建的时候不要影响数据库的性能表现。## SQL数据源解压字段设置# unpack_zlib       = zlib_column## MySQL数据源解压字段设置# unpack_mysqlcompress  = compressed_column# unpack_mysqlcompress  = compressed_column_2## MySQL数据源解压缓冲区设置# unpack_mysqlcompress_maxsize  = 16M## xmlpipe的数据源就是一个xml文档# type          = xmlpipe## 读取数据源的命令# xmlpipe_command       = cat /home/yejianfeng/instance/coreseek/var/test.xml## 字段# xmlpipe_field     = subject# xmlpipe_field     = content## 属性# xmlpipe_attr_timestamp    = published# xmlpipe_attr_uint = author_id## UTF-8修复设置## 只适用xmlpipe2数据源,数据源中有可能有非utf-8的字符,这个时候解析就有可能出现问题## 如果设置了这个字段,非utf-8序列就会全部被替换为空格。# xmlpipe_fixup_utf8    = 1
}## sphinx的source是有继承这么一种属性的,意思就是除了父source之外,这个source还有这个特性
source src1throttled : src1
{sql_ranged_throttle = 100
}## 索引src1
index src1
{## 索引类型,包括有plain,distributed和rt。分别是普通索引/分布式索引/增量索引。默认是plain。# type          = plain## 索引数据源source          = src1## 索引文件存放路径path            = /home/yejianfeng/instance/coreseek/var/data/src1## 文档信息的存储模式,包括有none,extern,inline。默认是extern。## docinfo指的就是数据的所有属性(field)构成的一个集合。## 首先文档id是存储在一个文件中的(spa)## 当使用inline的时候,文档的属性和文件的id都是存放在spa中的,所以进行查询过滤的时候,不需要进行额外操作。## 当使用extern的时候,文档的属性是存放在另外一个文件(spd)中的,但是当启动searchd的时候,会把这个文件加载到内存中。## extern就意味着每次做查询过滤的时候,除了查找文档id之外,还需要去内存中根据属性进行过滤。## 但是即使这样,extern由于文件大小小,效率也不低。所以不是有特殊要求,一般都是使用externdocinfo         = extern## 缓冲内存锁定。## searchd会讲spa和spi预读取到内存中。但是如果这部分内存数据长时间没有访问,则它会被交换到磁盘上。## 设置了mlock就不会出现这个问题,这部分数据会一直存放在内存中的。mlock           = 0## 词形处理器## 词形处理是什么意思呢?比如在英语中,dogs是dog的复数,所以dog是dogs的词干,这两个实际上是同一个词。## 所以英语的词形处理器会讲dogs当做dog来进行处理。morphology      = none## 词形处理有的时候会有问题,比如将gps处理成gp,这个设置可以允许根据词的长度来决定是否要使用词形处理器。# min_stemming_len  = 1## 词形处理后是否还要检索原词?# index_exact_words = 1## 停止词,停止词是不被索引的词。# stopwords     = /home/yejianfeng/instance/coreseek/var/data/stopwords.txt## 自定义词形字典# wordforms     = /home/yejianfeng/instance/coreseek/var/data/wordforms.txt## 词汇特殊处理。## 有的一些特殊词我们希望把它当成另外一个词来处理。比如,c++ => cplusplus来处理。# exceptions        = /home/yejianfeng/instance/coreseek/var/data/exceptions.txt## 最小索引词长度,小于这个长度的词不会被索引。min_word_len        = 1## 字符集编码类型,可以为sbcs,utf-8。对于Coreseek,还可以有zh_cn.utf-8,zh_ch.gbk,zh_ch.big5charset_type        = sbcs## 字符表和大小写转换规则。对于Coreseek,这个字段无效。# 'sbcs' default value is# charset_table     = 0..9, A..Z->a..z, _, a..z, U+A8->U+B8, U+B8, U+C0..U+DF->U+E0..U+FF, U+E0..U+FF## 'utf-8' default value is# charset_table     = 0..9, A..Z->a..z, _, a..z, U+410..U+42F->U+430..U+44F, U+430..U+44F## 忽略字符表。在忽略字符表中的前后词会被连起来当做一个单独关键词处理。# ignore_chars      = U+00AD## 是否启用通配符,默认为0,不启用# enable_star       = 1## min_prefix_len,min_infix_len,prefix_fields,infix_fields都是在enable_star开启的时候才有效果。## 最小前缀索引长度## 为什么要有这个配置项呢?## 首先这个是当启用通配符配置启用的前提下说的,前缀索引使得一个关键词产生了多个索引项,导致索引文件体积和搜索时间增加巨大。## 那么我们就有必要限制下前缀索引的前缀长度,比如example,当前缀索引长度设置为5的时候,它只会分解为exampl,example了。# min_prefix_len        = 0## 最小索引中缀长度。理解同上。# min_infix_len     = 0## 前缀索引和中缀索引字段列表。并不是所有的字段都需要进行前缀和中缀索引。# prefix_fields     = filename# infix_fields      = url, domain## 词汇展开## 是否尽可能展开关键字的精确格式或者型号形式# expand_keywords       = 1## N-Gram索引的分词技术## N-Gram是指不按照词典,而是按照字长来分词,这个主要是针对非英文体系的一些语言来做的(中文、韩文、日文)## 对coreseek来说,这两个配置项可以忽略。# ngram_len     = 1# ngram_chars       = U+3000..U+2FA1F## 词组边界符列表和步长## 哪些字符被看做分隔不同词组的边界。# phrase_boundary       = ., ?, !, U+2026 # horizontal ellipsis# phrase_boundary_step  = 100## 混合字符列表# blend_chars       = +, &, U+23# blend_mode        = trim_tail, skip_pure## html标记清理,是否从输出全文数据中去除HTML标记。html_strip      = 0## HTML标记属性索引设置。# html_index_attrs  = img=alt,title; a=title;## 需要清理的html元素# html_remove_elements  = style, script## searchd是预先打开全部索引还是每次查询再打开索引。# preopen           = 1## 字典文件是保持在磁盘上还是将他预先缓冲在内存中。# ondisk_dict       = 1## 由于在索引建立的时候,需要建立临时文件和和副本,还有旧的索引## 这个时候磁盘使用量会暴增,于是有个方法是临时文件重复利用## 这个配置会极大减少建立索引时候的磁盘压力,代价是索引建立速度变慢。# inplace_enable        = 1# inplace_hit_gap       = 0 # preallocated hitlist gap size# inplace_docinfo_gap   = 0 # preallocated docinfo gap size# inplace_reloc_factor  = 0.1 # relocation buffer size within arena# inplace_write_factor  = 0.1 # write buffer size within arena## 在经过过短的位置后增加位置值# overshort_step        = 1## 在经过 停用词 处后增加位置值# stopword_step     = 1## 位置忽略词汇列表# hitless_words     = all# hitless_words     = hitless.txt## 是否检测并索引句子和段落边界# index_sp          = 1## 字段内需要索引的HTML/XML区域的标签列表# index_zones       = title, h*, th
}index src1stemmed : src1
{path            = /home/yejianfeng/instance/coreseek/var/data/src1stemmedmorphology      = stem_en
}index dist1
{type            = distributedlocal           = src1local           = src1stemmed## 分布式索引(distributed index)中的远程代理和索引声明agent           = localhost:9313:remote1agent           = localhost:9314:remote2,remote3# agent         = /var/run/searchd.sock:remote4## 分布式索引( distributed index)中声明远程黑洞代理# agent_blackhole       = testbox:9312:testindex1,testindex2## 远程代理的连接超时时间agent_connect_timeout   = 1000## 远程查询超时时间agent_query_timeout = 3000
}index rt
{type            = rtpath            = /home/yejianfeng/instance/coreseek/var/data/rt## RT索引内存限制# rt_mem_limit      = 512M## 全文字段定义rt_field        = titlert_field        = content## 无符号整数属性定义rt_attr_uint        = gid## 各种属性定义# rt_attr_bigint        = guid# rt_attr_float     = gpa# rt_attr_timestamp = ts_added# rt_attr_string        = author
}indexer
{## 建立索引的时候,索引内存限制mem_limit       = 32M## 每秒最大I/O操作次数,用于限制I/O操作# max_iops      = 40## 最大允许的I/O操作大小,以字节为单位,用于I/O节流# max_iosize        = 1048576## 对于XMLLpipe2数据源允许的最大的字段大小,以字节为单位# max_xmlpipe2_field    = 4M## 写缓冲区的大小,单位是字节# write_buffer      = 1M## 文件字段可用的最大缓冲区大小,字节为单位# max_file_field_buffer = 32M
}## 搜索服务配置
searchd
{# listen            = 127.0.0.1# listen            = 192.168.0.1:9312# listen            = 9312# listen            = /var/run/searchd.sock## 监听端口listen          = 9312listen          = 9306:mysql41## 监听日志log         = /home/yejianfeng/instance/coreseek/var/log/searchd.log## 查询日志query_log       = /home/yejianfeng/instance/coreseek/var/log/query.log## 客户端读超时时间 read_timeout        = 5## 客户端持久连接超时时间,即客户端读一次以后,持久连接,然后再读一次。中间这个持久连接的时间。client_timeout      = 300## 并行执行搜索的数目max_children        = 30## 进程id文件pid_file        = /home/yejianfeng/instance/coreseek/var/log/searchd.pid## 守护进程在内存中为每个索引所保持并返回给客户端的匹配数目的最大值max_matches     = 1000## 无缝轮转。防止 searchd 轮换在需要预取大量数据的索引时停止响应## 当进行索引轮换的时候,可能需要消耗大量的时间在轮换索引上。## 但是启动了无缝轮转,就以消耗内存为代价减少轮转的时间seamless_rotate     = 1## 索引预开启,是否强制重新打开所有索引文件preopen_indexes     = 1## 索引轮换成功之后,是否删除以.old为扩展名的索引拷贝unlink_old      = 1## 属性刷新周期## 就是使用UpdateAttributes()更新的文档属性每隔多少时间写回到磁盘中。# attr_flush_period = 900## 索引字典存储方式# ondisk_dict_default   = 1## 用于多值属性MVA更新的存储空间的内存共享池大小mva_updates_pool    = 1M## 网络通讯时允许的最大的包的大小max_packet_size     = 8M## 崩溃日志文件# crash_log_path        = /home/yejianfeng/instance/coreseek/var/log/crash## 每次查询允许设置的过滤器的最大个数max_filters     = 256## 单个过滤器允许的值的最大个数max_filter_values   = 4096## TCP监听待处理队列长度# listen_backlog        = 5## 每个关键字的读缓冲区的大小# read_buffer       = 256K## 无匹配时读操作的大小# read_unhinted     = 32K## 每次批量查询的查询数限制max_batch_queries   = 32## 每个查询的公共子树文档缓存大小# subtree_docs_cache    = 4M## 每个查询的公共子树命中缓存大小# subtree_hits_cache    = 8M## 多处理模式(MPM)。 可选项;可用值为none、fork、prefork,以及threads。 默认在Unix类系统为form,Windows系统为threads。workers         = threads # for RT to work## 并发查询线程数# dist_threads      = 4## 二进制日志路径# binlog_path       = # disable logging# binlog_path       = /home/yejianfeng/instance/coreseek/var/data # binlog.001 etc will be created there## 二进制日志刷新# binlog_flush      = 2## 二进制日志大小限制# binlog_max_log_size   = 256M## 线程堆栈# thread_stack          = 128K## 关键字展开限制# expansion_limit       = 1000## RT索引刷新周期 # rt_flush_period       = 900## 查询日志格式## 可选项,可用值为plain、sphinxql,默认为plain。 # query_log_format      = sphinxql## MySQL版本设置# mysql_version_string  = 5.0.37## 插件目录# plugin_dir            = /usr/local/sphinx/lib## 服务端默认字符集# collation_server      = utf8_general_ci## 服务端libc字符集# collation_libc_locale = ru_RU.UTF-8## 线程服务看守# watchdog              = 1## 兼容模式# compat_sphinxql_magics    = 1
}

6) php配置Sphinx扩展

## 安装Sphinx扩展包
wget http://pecl.php.net/get/sphinx-1.3.3.tgztar -xvzf sphinx-1.3.3.tgzcd sphinx-1.3.3/usr/local/php/bin/phpize./configure --with-php-config=/usr/local/php/bin/php-configmake && make install## 修改php.ini配置文件,加入下面内容[sphinx]extension=sphinx.so

2.2 命令行操作

## 开始将数据源src1导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf src1## 将所有数据源导入Sphinx引擎
/usr/local/coreseek/bin/indexer -c /usr/local/coreseek/etc/sphinx.conf --all## 开始运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf## 停止运行Sphinx引擎
/usr/local/coreseek/bin/searcher -c /usr/local/coreseek/etc/sphinx.conf --stop

2.3 PHP操作Sphinx客户端

2.3.1 php配置Sphinx扩展

Sphinx扩展下载地址:PECL :: Package :: sphinx

2.3.2 php操作方法

<?php//实例化Sphinx对象
$sc = new SphinxClient();//连接sphinx服务器
$sc->setServer('120.27.202.51', 9312);//设置匹配模式
// SPH_MATCH_ALL:匹配所有查询词(默认模式)
// SPH_MATCH_ANY:匹配查询词中的任意一个
// SPH_MATCH_PHRASE:将整个查询看作一个词组,要求按顺序完整匹配
// SPH_MATCH_BOOLEAN:将查询看作一个布尔表达式(允许使用特殊的操作符)
// SPH_MATCH_FULLSCAN:强制使用下文所述的“完整扫描”模式来对查询进行匹配
// SPH_MATCH_EXTENDED2:将查询看作一个CoreSeek/Sphinx内部查询语言的表达式,后后面有详细的表格说明
$sc->SetMatchMode(SPH_MATCH_EXTENDED2);$sc->query('@type '.$category.' @paper_author "'.$author_val_arr[$key].'"  @(paper,paper_keyword,abstract,paper_chinese,abstract_chinese) '.$keyword, 'paper');//分页,四个参数分别代表偏移量、条数、返回的数据的最大值、当查询数量超过该值就停止查询
$page = input('page', 1);
$sc->SetLimits(($page-1)*10, 10, 2000000, 0);//排序模式,按照create_time倒叙排序
// SPH_SORT_RELEVANCE 模式, 按相关度降序排列(最好的匹配排在最前面)
// SPH_SORT_ATTR_DESC 模式, 按属性降序排列 (属性值越大的越是排在前面)
// SPH_SORT_ATTR_ASC 模式, 按属性升序排列(属性值越小的越是排在前面)
// SPH_SORT_TIME_SEGMENTS 模式, 先按时间段(最近一小时/天/周/月)降序,再按相关度降序
// SPH_SORT_EXTENDED 模式, 按一种类似SQL的方式将列组合起来,升序或降序排列。
// SPH_SORT_EXPR 模式,按某个算术表达式排序。
$sc->SetSortMode(SPH_SORT_EXTENDED, "create_time DESC");//设置过滤条件
$sc->SetFilter("type", array(1,3,5)); //设置过滤范围
$from = 2015;
$end = 2024;
$sc->SetFilterRange('year', $from, $end);//统计归类并按照统计数量排序,类似SQL的方式
$sc->setGroupBy('cat_id', SPH_GROUPBY_ATTR, "@count desc");//重置过滤条件
//$sc->ResetFilters();//重置分组 
//$sp->ResetGroupBy(); //src1是数据源
//查询条件:field1匹配key1,field2匹配key2,field3或者field4匹配key3,然后这三项要同时符合要求
$name1 = 'key1';
$name2 = 'key2';
$name3 = 'key3';
$sc->query("@field1 {$name1} @field2 {$name2} @(field3,field4) {$name3}", 'src1');//合并查询获取结果集
$result = $sc->RunQueries();

SPH_MATCH_EXTENDED2模式的规则: 

操作符示例释义
操作符OR

look | at

匹配含有look或者at

操作符NOTlook -at 或者  look !at

区配包含hello,且不包含world

字段搜索操作符@@descr look @content at

匹配descr中有look及content中有at【字段匹配】

字段限位修饰符@[]@descr[5] looks

匹配descr字段前5个词中包含有looks【字段匹配】

多字段搜索符@()@(descr,content) look

匹配descr或content包含有look【字段匹配】

全字段搜索符@*@* look

区配任何一列包含有look【字段匹配】

阀值匹配符"the word is a Puzzle"/3

匹配至少包含有3个词

短语(phrase)搜索符"the word"

匹配任何一个词

临近(proximity)搜索符"the word"~6

匹配the与word之间小于6个词

严格有序搜索符aaa<<bbb<<ccc< td="">

匹配aaa,bbb,ccc按顺序出现

字段开始和字段结束修饰符^the word$

匹配以the开始,word为结尾

隐式操作符AND"the word"

the与word都要出现在匹配的记录中

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/654502.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

限时回归!!!3D版《空洞骑士》!!!

空洞骑士是一款基于横板平台跳跃的传统风格2D动作冒险游戏。庞大的游戏世界交错相通&#xff0c;玩家控制小虫子去探索幽深黑暗的洞穴&#xff0c;成为了一代人茶余饭后的惦念&#xff0c;深受广大玩家们的喜爱。 这类平台跳跃游戏一般是游戏开发初学者以及独立游戏开发者们比…

【DRAM存储器十八】DDR3介绍

&#x1f449;个人主页&#xff1a;highman110 &#x1f449;作者简介&#xff1a;一名硬件工程师&#xff0c;持续学习&#xff0c;不断记录&#xff0c;保持思考&#xff0c;输出干货内容 参考资料&#xff1a;《镁光DDR3数据手册》 、《JESD79-3E》 最近忙于工作&#xff0…

Linux使用匿名管道实现进程池得以高效通信

&#x1f3ac;慕斯主页&#xff1a;修仙—别有洞天 ♈️今日夜电波&#xff1a;Nonsense—Sabrina Carpenter 0:50━━━━━━️&#x1f49f;──────── 2:43 &#x1f504; ◀️ ⏸ ▶️ …

python基础四------完结(概念在下面,代码看不懂了再看)

# a_list [1,2,3,4,5] # # print(a_list)# 根据下标来删除列表中的元素 # 爬取的数据中 有个别的数据 是我们不想要的 那么我们就可以通过下标的方式来删除 # del a_list[2] # print(a_list)# b_list [1,2,3,4,5] # print(b_list) # pop是删除列表中的最后一个元素 # b_list.…

Kali 基本命令大全

一、系统信息 arch 显示机器的处理器架构(1) uname -m 显示机器的处理器架构(2) uname -r 显示正在使用的内核版本 dmidecode -q 显示硬件系统部件- (SMBIOS / DMI) hdparm -i /dev/hda 罗列一个磁盘的架构特性 hdparm -tT /dev/sda 在磁盘上执行测试性读取操作 cat /proc/cpu…

AP5216 平均电流型LED降压恒流驱动IC 手电筒汽车摩托车灯芯片

产品描述 AP5216 是一款 PWM工作模式, 高效率、外围简单、内置功率管&#xff0c;适用于5V&#xff5e;100V输入的高精度降压 LED 恒流驱动芯片。输出最大功率可达9W&#xff0c;最大电流 1.0A。AP5216 可实现全亮/半亮功能切换&#xff0c;通过MODE 切换&#xff1a;全亮/半亮…

SAP HANA 报错信息,如何根据报错关键词去进行处理

HANA建模其实上手会比较快&#xff0c;基本会SQL就可以进行开发。 在实际开发中&#xff0c;难点一个是建模思路&#xff0c;另外一个则是建模中报错的处理。 现在将HANA中报错进行一个整理&#xff0c;这里的并不是完整的报错信息&#xff0c;大家可以根据关键词进行查看。 …

ChatGPT更新了Mention功能,集结若干GPTs作战,AI智能体的心智入口;向量数据库的挑战和未来

&#x1f989; AI新闻 &#x1f680; ChatGPT更新了Mention功能&#xff0c;集结若干GPTs作战&#xff0c;AI智能体的心智入口 摘要&#xff1a;OpenAI在ChatGPT中引入了一个新功能&#xff0c;允许用户在聊天时任意一个GPTs&#xff08;即ChatGPT最新推出的AI Agent 智能应用…

scrapy的入门使用

1 安装scrapy 命令: sudo apt-get install scrapy或者&#xff1a; pip/pip3 install scrapy2 scrapy项目开发流程 创建项目: scrapy startproject mySpider生成一个爬虫: scrapy genspider itcast itcast.cn提取数据:     根据网站结构在spider中实现数据采集相关内…

C/C++ - 函数进阶(C++)

目录 默认参数 函数重载 内联函数 函数模板 递归函数 回调函数 默认参数 定义 默认参数是在函数声明或定义中指定的具有默认值的函数参数。默认参数允许在调用函数时可以省略对应的参数&#xff0c;使用默认值进行替代。 使用 默认参数可以用于全局函数和成员函数。默认参…

C语言KR圣经笔记 5.12 复杂声明

5.12 复杂声明 C 语言有时会因为声明的语法而受到谴责&#xff0c;特别是涉及函数指针的声明语法。语法试图使声明和使用一致&#xff1b;在简单的情况下它的效果不错&#xff0c;但在更复杂的情况下会让人困惑&#xff0c;因为声明不能从左往右读&#xff0c;而且括号被过度使…

Linux文本三剑客---sed经典案例

Sed介绍&#xff1a; sed是一种流编辑器&#xff0c;它一次处理一行内容。处理时&#xff0c;把当前处理的行存储在临时缓冲区中&#xff0c;称为“模式空间”&#xff0c;接着用sed命令处理缓冲区中的内容&#xff0c;处理完成后&#xff0c;把缓冲区的内容送往屏幕。接着处理…

Mybatis-plus原生pages分页未生效的解决方案

文章目录 前言原因1、Mybatis Plus版本的问题2、Mapper.xml文件中SQL语句格式问题3、Mybatis Plus默认分页拦截器问题4、分页参数传参问题5、分页配置的问题 解决方案1、升级对应的Mybatis-plus版本分页插件配置问题3、自定义分页拦截器4、正确的参数5、不同版本的配置文件3.4.…

Hugging Face创始人分享:企业如何在ChatGPT浪潮下实现战略布局

Hugging Face创始人兼首席执行官 Clem Delangue在IBM一年一度的 THINK大会中研讨了当前人工智能发展趋势&#xff0c;特别是ChatGPT模型以及其对行业的影响。他的演讲还涉及到一个关键的议题&#xff0c;在ChatGPT这样的通用模型出现后&#xff0c;企业如何在人工智能领域找到自…

QR 分解cpu程序

1. 代码 Makefile EXE : hello_qrSRC_QR qr_main.c qr_func.c $(EXE): $(SRC_QR)gcc $^ -o $ -lm.PHONY: clean clean:-rm -rf $(EXE) qr_main.c #include "stdio.h"int maqr(double* a,int m,int n,double* q);int main() {int i,j;static double q[4][4],a[4]…

全能相似度计算与语义匹配搜索工具包,多维度实现多种算法,涵盖文本、图像等领域。支持文图搜索,满足您在不同场景下的搜索需求

全能相似度计算与语义匹配搜索工具包,多维度实现多种算法,涵盖文本、图像等领域。支持文图搜索,满足您在不同场景下的搜索需求。 Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索 Similar…

window下如何安装ffmpeg(跨平台多媒体处理工具)

ffmpeg是什么? FFmpeg是一个开源的跨平台多媒体处理工具&#xff0c;可以用于录制、转换和流媒体处理音视频。它包含了几个核心库和工具&#xff0c;可以在命令行下执行各种音视频处理操作&#xff0c;如剪辑、分割、合并、媒体格式转换、编解码、流媒体传输等。FFmpeg支持多…

C++类和对象引入以及类的介绍使用

文章目录 一、面向过程和面向对象的初步认识二、类的引入2.2 类的引入 三、类的访问限定符及封装3.3 访问限定符3.4 【面试题】C中struct和class的区别3.5 类的两种定义方式 四、封装【面试题】面向对象的三大特性 五、类的作用域六、类的实例化七、类对象模型7.1 类对象的存储…

postman之接口参数签名(js接口HMAC-SHA256签名)

文章目录 postman之接口参数签名&#xff08;js接口签名&#xff09;一、需求背景二、签名生成规则三、postman js接口签名步骤1. postman设置全局、或环境参数2. 配置Pre-request Scripts脚本 四、Pre-request Scripts脚本 常见工作整理1. js获取unix时间戳2. body json字符串…

day35WEB 攻防-通用漏洞XSS 跨站反射存储DOMBeef-XSS

目录 一&#xff0c;XSS 跨站-原理&分类&手法&探针 1、原理 2、分类 3、危害 二&#xff0c;反射型XSS 1&#xff0c;案例演示 三&#xff0c;存储型XSS 1&#xff0c;案例演示 四&#xff0c;DOM 型XSS 五&#xff0c;XSS 利用环境-XSS 平台&Beef-XS…