sphinx配置 + php

  1. 1.    为什么要使用Sphinx

 

假设你现在运营着一个论坛,论坛数据已经超过100W,很多用户都反映论坛搜索的速度非常慢,那么这时你就可以考虑使用Sphinx了(当然其他的全文检索程序或方法也行)。

 

  1. 2.    Sphinx是什么

 

Sphinx由俄罗斯人Andrew Aksyonoff 开发的高性能全文搜索软件包,在GPL与商业协议双许可协议下发行。

全文检索是指以文档的全部文本信息作为检索对象的一种信息检索技术。检索的对象有可能是文章的标题,也有可能是文章的作者,也有可能是文章摘要或内容。

 

  1. 3.    Sphinx的特性

 

l  高速索引 (在新款CPU上,近10 MB/秒);

l  高速搜索 (2-4G的文本量中平均查询速度不到0.1秒);

l  高可用性 (单CPU上最大可支持100 GB的文本,100M文档);

l  提供良好的相关性排名

l  支持分布式搜索;

l  提供文档摘要生成;

l  提供从MySQL内部的插件式存储引擎上搜索

l  支持布尔,短语, 和近义词查询;

l  支持每个文档多个全文检索域(默认最大32个);

l  支持每个文档多属性;

l  支持断词;

l  支持单字节编码与UTF-8编码;

 

  1. 4.    下载并安装Sphinx

 

打开网址http://www.coreseek.cn/news/7/52/ 找到适合自己的操作系统的版本,比如我是Windows那么我就可以下载Coreseek Win32通用版本,Linux下可以下载源码包,自己编译安装。这里解释下为什么我们下载的程序叫Coreseek,Coreseek是基于Sphinx开发的一款软件,对Sphinx做了一些改动,在中文方面支持得比Sphinx好,所以我们使用之。

下载完成后,将程序解压到你想解压的地方,比如我就想解压到E盘根目录,之后修改目录名为Coreseek,大功告成Coreseek安装完成了,安装的目录是在E:\coreseek\。

 

  1. 5.    使用Sphinx

 

我要使用Sphinx需要做以下几件事

1)        首先得有数据

2)        建立Sphinx配置文件

3)        生成索引

4)        启动Sphinx

5)        使用之(调用api或search.exe程序进行查询)

 

第1件:(导入数据)

我们建立测试所需要用到得数据库、表以及数据,篇幅有限,这些在附件中都有,下载后导入MySQL即可。

 

第2件:(建立配置文件)

接下来我们需要建立一个Sphinx的配置文件 E:\coreseek\etc\mysql.conf,将其内容改为下面这些:

source mysql

{

       type                                         = mysql

       sql_host                                    = localhost 

       sql_user                                    = root          

       sql_pass                                          =           

       sql_db                                      = test           

       sql_port                                    = 3306         

       sql_query_pre                         = SET NAMES utf8

       sql_query                                 = SELECT id,addtime,title,content FROM post

       sql_attr_timestamp                 = addtime

}

 

index mysql

{

       source                                      = mysql

       path                                         = E:/coreseek/var/data/mysql

       charset_dictpath                   = E:/coreseek/etc/

       charset_type                           = zh_cn.utf-8

}

 

searchd

{

       listen                                         = 9312

       max_matches                         = 1000

       pid_file                                     = E:/coreseek/var/log/searchd_mysql.pid

       log                                            = E:/coreseek/var/log/searchd_mysql.log

       query_log                                = E:/coreseek/var/log/query_mysql.log

}

 

先讲下这个配置文件中每项的含义。

source mysql{} 定义源名称为mysql,也可以叫其他的,比如:source xxx{}

type  数据源类型

sql_* 数据相关的配置,比如sql_host,sql_pass什么的,这些不解释鸟

sql_query 建立索引时的查询命令,在这里尽可能不使用where或group by,将where与groupby的内容交给sphinx,由sphinx进行条件过滤与groupby效率会更高,注意:select 的字段必须包括一个唯一主键以及要全文检索的字段,where中要用到的字段也要select出来

sql_query_pre 在执行sql_query前执行的sql命令, 可以有多条

sql_attr 以这个开头的配置项,表示属性字段,在where,orderby,groupby中出现的字段要分别定义一个属性,定义不同类型的字段要用不同的属性名,比如上面的sql_attr_timestamp就是时间戳类型。

 

index mysql{} 定义索引名称为mysql,也可以叫其他的,比如:index xxx{}

source 关联源,就是source xxx定义的。

path 索引文件存放路径,比如:E:/coreseek/var/data/mysql 实际存放在E:/coreseek/var/data/目录,然后创建多个名称为mysql后缀却不同的索引文件

charset_dictpath  指明分词法读取词典文件的位置,当启用分词法时,为必填项。在使用LibMMSeg作为分词 库时,需要确保词典文件uni.lib在指定的目录下

charset_type 字符集,比如charset_type = zh_cn.gbk

 

searchd{} sphinx守护进程配置

listen 监听端口

max_matches最大匹配数,也就是查找的数据再多也只返回这里设置的1000条

pid_file pid文件路径

log全文检索日志

query_log查询日志

 

好了,配置文件就这样,配置的参数还有很多,大家可以自己查文档。

 

第3件:(生成索引)

开始 -> 运行 -> 输入cmd回车,打开命令行工具

e:\coreseek\bin\indexer --config e:\coreseek\etc\mysql.conf --all

这一串东西其实就是调用indexer程序来生成所有索引

 

如果只想对某个数据源进行索引,则可以这样:e:\coreseek\bin\indexer --config e:\coreseek\etc\mysql.conf 索引名称(索引名称指配置文件中所定义的)

--config,--all这些都是indexer程序的参数,想了解更多参数的朋友可以查看文档

运行命令后如果你没看到FATAL,ERROR这些东西,那么索引文件就算生成成功了,比如我看到得就是

………省略………

using config file 'e:\coreseek\etc\mysql.conf'...

indexing index 'mysql'...

collected 4 docs, 0.0 MB

………省略………

 

第4件:(启动Sphinx)

同样命令行下

e:\coreseek\bin\searchd --config e:\coreseek\etc\mysql.conf

运行后提示了一大堆东西

using config file 'e:\coreseek\etc\mysql.conf'...

listening on all interfaces, port=9312

accepting connections

不用管这些鸟文是啥意思,反正Sphinx是启动好了。

现在有一串鸟文的这个命令行是不能关的,因为关了Sphinx也就关了,如果觉得这样不爽,可以将Sphinx安装成系统服务,在后台运行。

安装系统服务只需在命令行中输入以下命令

e:\coreseek\bin\searchd --config e:\coreseek\etc\mysql.conf --install

安装之后记得启动这个服务,不会启动那我没法,自己google。

 

第5步:(使用Sphinx)

在web根目录下建立一个search目录(当然不在根目录也行,同样目录名也可以随取),复制E:\coreseek\api\ sphinxapi.php文件到search目录(sphinxapi.php这个是sphinx官方提供的api),开始php程序的编写。

在search目录建立一个文件,名字叫啥都行,我管它叫index.php,其内容如下

<?php

 

include 'sphinxapi.php';  // 加载Sphinx API

 

$sc = new SphinxClient(); // 实例化Api

$sc->setServer('localhost', 9312); // 设置服务端,第一个参数sphinx服务器地址,第二个sphinx监听端口

$res = $sc->query('sphinx', 'mysql'); // 执行查询,第一个参数查询的关键字,第二个查询的索引名称,mysql索引名称(这个也是在配置文件中定义的),多个索引名称以,分开,也可以用*表示所有索引。

print_r($res);

 

打印结果:

Array

(

   ………省略………

    [matches] => Array

        (

            [2] => Array

                (

                    [weight] => 2

                    [attrs] => Array

                        (

                            [addtime] => 1282622004

                        )

                )

            [4] => Array

                (

                    [weight] => 2

                    [attrs] => Array

                        (

                            [addtime] => 1282622079

                        )

                )

        )

  ………省略………

)

Matches中就是查询的结果了,但是仿佛不是我们想要的数据,比如titile,content字段的内容就没有查询出来,根据官方的说明是Sphinx并没有连接到MySQL去取数据,只是根据它自己的索引内容进行计算,因此如果想用Sphinx提供的API去取得我们想要的数据,还必须以查询的结果为依据,再次查询MySQL从而得到我们想要的数据。

 

查询结果中键值分别表示

 

2唯一主键

 

weight权重

attrs sql_attr_*中配置

至此,搜索引擎算是完成一大半了,剩下的大家可以自行完成。

 

比如:

 

<?php

$ids    = array_keys($res['matches']); // 获取主键

$ids = join(',', $ids);

$query  = mysql_query("SELECT * FROM post WHERE id IN ({$ids})");

while($row = mysql_fetch_assoc($query)) {

    .....

}

 

Sphinx的更多配置,程序的参数等,大家可以查看Sphinx的文档。

转载于:https://www.cnblogs.com/M-D-Luffy/p/4713165.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/358419.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java数字格式:DecimalFormat

在Java Numeric Formatting一文中 &#xff0c;我描述并演示了NumberFormat静态方法提供的一些有用实例&#xff0c;例如NumberFormat.getNumberInstance&#xff08;Locale&#xff09; &#xff0c; NumberFormat.getPercentInstance&#xff08;Locale&#xff09; &#xf…

微信公众号(订阅号)如何开通付费功能?

前几天看了一下启舰的一个视频中谈到他做自媒体的收入,我记得应该有一年30多万的收入,大概组成是微信公众号广告每个月2万*12个月。两本安卓书收取版权提成,根据出版量8%-10%不等,他一年的出版量在10000左右吧,每本书每个月大概有2000元的样子*12个月,还有一些B站及其他的…

Kunyu(坤舆)

本文转载于&#xff1a;https://www.anquanke.com/post/id/248802 0x00 介绍 工具介绍 Kunyu (坤舆)&#xff0c;名字取自 <坤舆万国全图> &#xff0c;测绘实际上是一个地理信息相关的专业学科&#xff0c;针对海里的、陆地的、天上的地理信息进行盘点。同样应用于网络…

rabbitmq——镜像队列

转自&#xff1a;http://my.oschina.net/hncscwc/blog/186350?p1 1. 镜像队列的设置 镜像队列的配置通过添加policy完成&#xff0c;policy添加的命令为&#xff1a; rabbitmqctl set_policy [-p Vhost] Name Pattern Definition [Priority] -p Vhost: 可选参数&#x…

微信订阅号如何开通付费功能

前几天看了一下启舰的一个视频中谈到他做自媒体的收入&#xff0c;我记得应该有一年30多万的收入&#xff0c;大概组成是微信公众号广告每个月2万*12个月。两本安卓书收取版权提成&#xff0c;根据出版量8%-10%不等&#xff0c;他一年的出版量在10000左右吧&#xff0c;每本书每…

实战sqlmap绕过WAF

本文转载于https://xz.aliyun.com/t/10385 实战演示 通过前期的信息收集发现存在注入的页面如下&#xff1a; 直接使用sqlmap跑发现出现如下错误&#xff1a; python2 sqlmap.py -u "http://xxxx?&daxxtaenull&paramexxxxxx" --batch --delay1 --random…

在Hibernate中使用存储过程

本文介绍了从休眠状态调用存储过程的不同方法。 JDBC操作将不涉及。 PostgreSQL将用作数据库。 CREATE DATABASE example;CREATE TABLE company (company_id BIGSERIAL PRIMARY KEY,name TEXT NOT NULL );CREATE TABLE benefit (benefit_id BIGSERIAL PRIMARY KEY,name TEXT,c…

C# 交错数组

C# 交错数组表示一个表格数据&#xff0c;行确定&#xff0c;但是每一行的列数不同&#xff0c;那么这个时候就可以使用交错数组。交错数组的本质是1个一维数组&#xff0c;只不过这个一维数组的元素的类型是一个数组。交错数组的声明元素的类型[] [] 数组的名称 new 元素的类…

QQ群群排名如何进行SEO优化?

QQ群排名有多个方面&#xff0c;比如你的qq群名称&#xff0c;人数&#xff0c;还有活跃度等等&#xff0c;很多因素影响你的群排名。下面给大家讲解如何做到搜索第一。第一&#xff1a;群名称群名称一定要和你搜索的关键词相匹配&#xff0c;比如我建的一个粉丝群“爱嵩阁”&a…

编辑器漏洞手册

简介 #2014年8月21日 最初的手册版本&#xff0c;是由北洋贱队的各位朋友收集整理。时隔4年&#xff0c;我们再次整理了这些文件。目的是希望这种传统能延续下去。我们相信&#xff1a;星星之火可以燎原。希望大家能多提建议&#xff0c;完善这份手册。 #2010年某月某日 创建这…

iOS学习 NSString常用技巧

字符串是程序设计最常用的数据类型之一了。在Mac/iPhone编程中&#xff0c;苹果为我们提供了一个不同的字符串类型NSString。有别与普通的String为数据类型&#xff0c;NSString其实是一个对象类型。NSString是NSObject(Cocoa Foundation的基础对象)的子类&#xff0c;所以具有…

Flash不同版本的下载安装及必要的系统组件未正常运行的解决办法

在一个外包平台刷入职培训视频&#xff0c;类似于慕课的课程&#xff0c;需要安装Flash才能播放。一般推荐谷歌浏览器&#xff0c;值得注意的是2020年12月&#xff0c;谷歌浏览器将不再支持flash flash官网 安装步骤 在百度搜索"flash"&#xff0c;点击Flash中国官…

UEditor 任意文件上传漏洞

1 漏洞简介 1.1 漏洞描述 Ueditor是百度开发的一个网站编辑器&#xff0c;目前已经不对其进行后续开发和更新&#xff0c;该漏洞只存在于该编辑器的.net版本。其他的php,jsp,asp版本不受此UEditor的漏洞的影响&#xff0c;.net存在任意文件上传&#xff0c;绕过文件格式的限制…

如何设计类和接口

本文是我们名为“ 高级Java ”的学院课程的一部分。 本课程旨在帮助您最有效地使用Java。 它讨论了高级主题&#xff0c;包括对象创建&#xff0c;并发&#xff0c;序列化&#xff0c;反射等。 它将指导您完成Java掌握的过程&#xff01; 在这里查看 &#xff01; 目录 1.简…

HDU 3072 SCC Intelligence System

给出一个带权有向图&#xff0c;要使整个图连通。SCC中的点之间花费为0&#xff0c;所以就先缩点&#xff0c;然后缩点后两点之间的权值为最小边的权值&#xff0c;把这些权值累加起来就是答案。 1 #include <iostream>2 #include <cstdio>3 #include <algorith…

再见,Springboot和SpringCloud

Java中说到微服务肯定离不开Spring Boot和Spring Cloud&#xff0c;这两者到底有什么关系&#xff0c;什么是微服务&#xff0c;如果单纯的说SpringBoot&#xff0c;SpringCloud&#xff0c;都是不准确的&#xff0c;那应该怎么回答。官网对于Spring Boot的介绍Spring Boot mak…

通过暴露出来的OA和github信息拿Shell

本文转载于https://xz.aliyun.com/t/10392 记一次授权渗透测试 一&#xff1a;信息收集阶段 因为目标是学校&#xff0c;一般会去考虑收集学号&#xff0c;教工号。因为有的登陆点需要此类信息&#xff0c;且密码存在规律性&#xff08;身份证后六位&#xff0c;123456&#xf…

表格内容排序(js实现)

http://tablesorter.com/docs/转载于:https://www.cnblogs.com/sunflower627/p/4718688.html

手机上可以编程看代码的软件

以后大家会在路上看到很多人拿着手机,他不是在聊天,他有可能是运维工程师、也可能是算法开发、也可能是java开发,还可能是客户端开发,也可能是前端开发... 让你编程一直在路上,这到底是程序员的福音,还是码农的枷锁。 粉丝提问: 这里介绍几款可以在手机上编程的app,分…

给你的执行力马上充值

“执行力就是在既定的战略和愿景的前提下,组织对内外部可利用的资源进行综合协调,制定出可行性的战略,并通过有效的执行措施从而最终实现组织目标、达成组织愿景的一种力量。执行力是一个变量,不同的执行者在执行同一件事情的时候也会得到不同的结果。执行力不但因人而异,而且还…