sphinx数据文件简析

 

Sphinx使用的文件包括 “sph”, “spa”, “spi”, “spd”, “spp”, “spm” ,还有锁文件(.spl)。其中sph是系统的配置文件。其它则为索引文件。

l Spi 文件:保存WordId及指向此WordId对应的文档信息在spd文件的指针。Spi文件在检索程序启动时完全加载入内存。Spi文件是分块的,块内排序,块之间也排序。分块的目的应该是为了快速检索到WordId,因为Spi中的WordId是变长压缩的,索引需要先在块级别做二分定位,再在快内解压缩查找。

文件结构,每块中结构,wordId实际存储的是差值

WordId

SpdFilePointer

DocNum

HitNum

2 Spd文件:

文件结构

DocID

[DocInfo]

HitFilePointer

FieldNum

HitNum

3 Spp文件

文件结构

HitPos

4 Spa文件:存储DocInfo的文件,检索程序启动时会把此文件加载如内存,sphinx可以指定DocInfo的存储方式,

① 存储到spd文件中(InLine)

②. 另外单独存储。指定此,就会生成spa文件

文件结构:

DocId

DocInfo

5 Spm文件:在DocInfo中,有一种特殊的属性,叫MVA,多值属性。Sphinx对此属性特殊处理,需要存储在spm文件中。检索程序启动时会把此文件加载如内存。此(MVA)属性在DocInfo对应位置存储其在此文件中的字节偏移量。

文件结构:

DocId

Anum,A1,A2,…,An

Bnum,B1,B2,…,Bn

 

 

由于在第一趟扫描过程中会出现WordID相同的不同Hits(不同文档或者不同位置不同字段),二趟前会根据WordID排序,WordID相同的Hits会连续出现并合并(合并到第一次出现的相同WordID中)

转载于:https://www.cnblogs.com/Jerry-blog/p/5044602.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/272617.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

收集一些常用的正则表达式

1 . 校验密码强度密码的强度必须是包含大小写字母和数字的组合,不能使用特殊字符,长度在8-10之间。^(?.*\\d)(?.*[a-z])(?.*[A-Z]).{8,10}$2. 校验中文字符串仅能是中文。^[\\u4e00-\\u9fa5]{0,}$3. 由数字、26个英文字母或下划线组成的字符串^\\w$4.…

C#实现图片的无损压缩

/// <summary>/// 图像缩略图处理/// </summary>/// <param name"bytes">图像源数据</param>/// <param name"compression">压缩质量 1-100</param>/// <param name"thumbWidth">缩略图的宽</para…

部署和调优 1.3 pureftp部署和优化-1

FTP 是 File Transfe Protocol&#xff08;文件传输协议&#xff09;的英文简称&#xff0c;而中文简称为 “文传协议” 用于 Internet 上的控制件的双向传输。 可以访问 www.pureftpd.org 官网 切换到下载目录 cd /usr/local/src 下载 wget http://download.pureftpd.org/…

android通知图标变白色,android 7.0通知图标出现白色方块

我使用下面的代码片段在我的Android应用程序中生成通知.private void sendNotification(String contentText, String message) {Intent resultIntent new Intent(this, MainActivity.class);resultIntent.putExtra("clear","clear");resultIntent.setFlag…

sqlserver 查找某个字段在哪张表里

如何查找某个字段属于哪张表&#xff1f;select [name] from [库名].[dbo].sysobjects where id in(select id from [库名].[dbo].syscolumns Where name字段名)

性能

成员嵌套越深&#xff0c;访问速度越慢。location.href 总是快于window.location.href&#xff0c;而后者也要比window.location.href.toString()更快。如果这些属性不是对象的实例属性&#xff0c;那么成员解析还要在每个点上搜索原形链&#xff0c;这将需要更长时间。 functi…

身份证号码有效性检测算法 ( js版 转 C#版 )

C#版#region 检测是否是正确的身份证/// <summary>/// 身份证验证/// </summary>/// <param name"num"></param>/// <returns></returns>public static bool isIdCardNo(string cardid){string num cardid.ToUpper();int[] fac…

android蓝牙移植,平板蓝牙测试与移植一

一&#xff0e;平板蓝牙测试硬件连接&#xff1a;进入系统的”设置”&#xff0c;开启“蓝牙”&#xff1a;可以看到扫描到其他的蓝牙设备&#xff0c;“Bluez”是平板的名称。点击“Bluez”&#xff0c;设置如下&#xff1a;点击要配对的蓝牙设备(手机等)&#xff0c;进行蓝牙…

ASP.NET系列:自定义配置节点的复用

appSettings太简单&#xff0c;为每个程序自定义配置节点太复杂&#xff0c;因此要解决app.config&web.config自定义配置的复用问题。 1.读取不依赖SectionName,根节点可以定义为任何名称。 2.足够简单&#xff0c;配置项采用name value的形式&#xff1b;足够复杂&#xf…

Web的26项基本概念和技术

Web开发是比较费神的&#xff0c;需要掌握很多很多的东西&#xff0c;特别是从事前端开发的朋友&#xff0c;需要通十行才行。今天&#xff0c;本文向初学者介绍一些Web开发中的基本概念和用到的技术&#xff0c;从A到Z总共26项&#xff0c;每项对应一个概念或者技术。Internet…

android 引入 .so,android studio引入so库方法(示例代码)

在Android Studio中引入so库&#xff0c;只需在app/jniLibs下放入so文件&#xff0c;然后在Module的build.gradle中加入&#xff1a;sourceSets {main {jniLibs.srcDirs [‘libs‘]}}完整的build.gradle如下&#xff1a;apply plugin: ‘com.android.library‘android {compil…

BZOJ3670: [Noi2014]动物园

Description 近日&#xff0c;园长发现动物园中好吃懒做的动物越来越多了。例如企鹅&#xff0c;只会卖萌向游客要吃的。为了整治动物园的不良风气&#xff0c;让动物们凭自己的真才实学向游客要吃的&#xff0c;园长决定开设算法班&#xff0c;让动物们学习算法。 某天&#x…

NSPredicate的用法、数组去重、比较...

一般来说这种情况还是蛮多的&#xff0c;比如你从文件中读入了一个array1&#xff0c;然后想把程序中的一个array2中符合array1中内容的元素过滤出来。 1&#xff09;例子一&#xff0c;一个循环 NSArray *arrayFilter [NSArray arrayWithObjects:"pict", "bla…

android one指纹解锁,小米用屏幕内指纹扫描仪准备了两部Android One手机

2017年9月发布时&#xff0c;小米米A1几乎成功一夜成名。小西米去年夏天推出了Mi A2和Mi A2 Lite。现在&#xff0c;正如XDA开发者所揭示的那样&#xff0c;中国品牌正在筹备第三代产品阵容。代号为“bamboo_sprout”和“cosmos_sprout” - 所有Android One智能手机都包含代号为…

hive日志位置(日志定位报错:Failed with exception Unable to move sourcehdfs://namenode/tmp/hive-pmp_bi/h)...

Hive中的日志分为两种 1. 系统日志&#xff0c;记录了hive的运行情况&#xff0c;错误状况。 2. Job 日志&#xff0c;记录了Hive 中job的执行的历史过程。日志查看方法 1&#xff0c;在本地运行机器上 hive日志存储位置在本机上&#xff0c;不是hadoop上&#xff1a;在hive/co…

控制算法用c语言实现的,PID控制算法的C语言实现(完整版)

【实例简介】该文件里面还有各种改进的PID的算法&#xff0c;比如变积分控制等【实例截图】【核心代码】具体 PID 实现代码如下&#xff1a;pid.Kp0.4;pid.Ki0.2;//增加了积分系数pid.Kd0.2;float PID_realize(float speed){float index;pid.SetSpeedspeed;pid.errpid.SetSpeed…

《挑战程序设计竞赛》2.2 贪心法-其它 POJ3617 3069 3253 2393 1017 3040 1862 3262

POJ3617 Best Cow Line 题意 给定长度为N的字符串S&#xff0c;要构造一个长度为N的字符串T。起初&#xff0c;T是一个空串&#xff0c;随后反复进行下列任意操作&#xff1a; 从S的头部&#xff08;或尾部&#xff09;删除一个字符&#xff0c;加到T的尾部 目标是构造字典序…

easyui dialog的一个小坑

问题描述&#xff1a;1、html<div id"dig" style"padding:10px;width:500px;height:300px;font-family:微软雅黑;font-size:16px;"> Dialog Content. </div> 2、js$("#dig").css("display", "block");$(#dig).d…

android rxbus 一个页面监听,Android RxBus的使用

RxBus的核心功能是基于Rxjava的&#xff0c;在RxJava中有个Subject类&#xff0c;它继承Observable类&#xff0c;同时实现了Observer接口&#xff0c;因此Subject可以同时担当订阅者和被订阅者的角色&#xff0c;这里我们使用Subject的子类PublishSubject来创建一个Subject对象…

AngularJS $q

updatePushIdfunction($q,pushid) { var d$q.defer(); var data {pushid:pushid}; server.api("/updateRId",data).success(function(res){ if(res.resultcode1){ d.resolve(更新成功.);…