SQL 2005 全文索引


 全文索引技术是目前搜索引擎的关键技术。
试想在1M大小的文件中搜索一个词,可能需要几秒,在100M的文件中可能需要几十秒,如果在更大的文件中搜索那么就需要更大的系统开销,这样的开销是不现实的。
所以在这样的矛盾下出现了全文索引技术,有时候有人叫倒排文档技术。
原理是先定义一个词库,然后在文章中查找每个词条(term)出现的频率和位置,把这样的频率和位置信息按照词库的顺序归纳,这样就相当于对文件建立了一个以词库为目录的索引,这样查找某个词的时候就能很快的定位到该词出现的位置。
问题在处理英文文档的时候显然这样的方式是非常好的,因为英文自然的被空格分成若干词,只要我们有足够大的词汇库就能很好的处理。但是亚洲文字因为没有空格作为断词标志,所以就很难判断一个词,而且人们使用的词汇在不断的变化,而维护一个可扩展的词汇库的成本是很高的,所以问题出现了。
解决出现这样的问题使“分词”成为全文索引的关键技术。目前有两中基本的方法:
二元法 它把所有有可能的每两两汉字的组合看为一个词组,这样就没有维护词库的开销。
词库法 它使使用词库中的词作为切分的标准,这样也出现了词库跟不上词汇发展的问题,除非你维护词库。
实际上现在很多著名的搜索引擎都使用了多种分词的办法,比如“正向最大匹配”+“逆向最大匹配”,基于统计学的新词识别,自动维护词库等技术,但是显然这样的技术还没有作到完美。
目前全文索引技术正走向人工智能化,也是发展的方向。

===============================

一个完整的SQL SERVER数据库全文索引的示例 日期:2009-08-28 14:18
SQL SERVER数据库全文索引的示例,以pubs数据库为例。
首先,介绍利用系统存储过程创建全文索引的具体步骤: 
1) 启动数据库的全文处理功能 (sp_fulltext_database) 
2) 建立全文目录 (sp_fulltext_catalog) 
3) 在全文目录中注册需要全文索引的表 (sp_fulltext_table) 
4) 指出表中需要全文索引的列名 (sp_fulltext_column) 
5) 为表创建全文索引 (sp_fulltext_table) 
6) 填充全文目录 (sp_fulltext_catalog) 
---------********示例********------------- 
以对pubs数据库的title和notes列建立全文索引,之后使用索引查询title列或notes列中包含有datebase 或computer字符串的图书名称: 
在这之前,需要安装Microsoft Search服务,启动SQL server全文搜索服务 
user pubs --打开数据库 
go 
--检查数据库pubs是否支持全文索引,如果不支持 
--则使用sp_fulltext_database 打开该功能 
if(select databaseproperty('pubs','isfulltextenabled'))=0 
execute sp_fulltext_database 'enable' 
--建立全文目录FT_PUBS 
execute sp_fulltext_catalog 'FT_pubs','create' 
--为title表建立全文索引数据元 
execute sp_fulltext_table 'title','create','FT_pubs','UPKCL_titleidind' 
--设置全文索引列名 
execute sp_fulltext_column 'title','title','add' 
execute sp_fulltext_column 'title','notes','add' 
--建立全文索引 
--activate,是激活表的全文检索能力,也就是在全文目录中注册该表 
execute sp_fulltext_table 'title','activate' 
--填充全文索引目录 
execute sp_fulltext_catalog 'FT_pubs','start_full' 
go 
--检查全文目录填充情况 
While fulltextcatalogproperty('FT_pubs','populateStatus')<>0 
begin 
--如果全文目录正处于填充状态,则等待30秒后再检测一次 
waitfor delay '0:0:30' 
end 
--全文目录填充完成后,即可使用全文目录检索 
select title 
form 
where CONTAINS(title,'database') 
or CONTAINS(title,'computer') 
or CONTAINS(notes,'database') 
or CONTAINS(notes,'database') 
 
'--------------以下介绍一下全文操作类的系统存储过程 
过程名称:sp_fulltext_service 
执行权限:serveradmin或系统管理员 
作 用:设置全文搜索属性 
过程名称:sp_fulltext_catalog 
执行权限:db_owner及更高角色成员 
作 用:创建和删除一个全文目录,启动或停止一个全文目录的索引操作 
过程名称:sp_fulltext_database 
执行权限:db_owner角色成员 
作 用:初始化全文索引或删除数据库中所有全文目录 
过程名称:sp_fulltext_table 
执行权限:db_ddladnmin或db_owner角色成员 
作 用:将一个表标识为全文索引表或非全文索引表 
过程名称:sp_fulltext_column 
执行权限:db_ddladnmin角色成员 
作 用:指出一个全文索引表中的那些列假如或退出全文索引



本文转自黄聪博客园博客,原文链接:http://www.cnblogs.com/huangcong/archive/2010/05/07/1729512.html如需转载请自行联系原作者

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/257639.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

python重命名窗口_Python:即时重命名方法名称

如果要继续在已切换到使用属性的对象上使用get_Field和set_Field(您只需访问或分配给Field),则可以使用包装器对象&#xff1a;class NoPropertyAdaptor(object):def __init__(self, obj):self.obj objdef __getattr__(self, name):if name.startswith("get_"):retu…

nginx优化之请求直接返回json数据

对于有些服务端接口返回是固定值的json&#xff0c;可通过配置nginx直接返回json&#xff0c;减少程序的加载对资源的占用&#xff0c;减少接口响应时间 location ~* (request/update)$ { default_type application/json; return 200 {"update":"no&quo…

ARP扫描工具arp-scan

2019独角兽企业重金招聘Python工程师标准>>> ARP扫描工具arp-scan arp-scan是Kali Linux自带的一款ARP扫描工具。该工具可以进行单一目标扫描&#xff0c;也可以进行批量扫描。批量扫描的时候&#xff0c;用户可以通过CIDR、地址范围或者列表文件的方式指定。该工具…

数据库索引的作用和优点缺点

为什么要创建索引呢&#xff1f;这是因为&#xff0c;创建索引可以大大提高系统的性能。 第一&#xff0c;通过创建唯一性索引&#xff0c;可以保证数据库表中每一行数据的唯一性。 第二&#xff0c;可以大大加快 数据的检索速度&#xff0c;这也是创建索引的最主要的原因。 第…

elementui el-from 怎样显示图片_vue2.0使用weui.js的uploader组件上传图片(兼容移动端)...

本文已同步到专业技术网站 www.sufaith.com, 该网站专注于前后端开发技术与经验分享, 包含Web开发、Nodejs、Python、Linux、IT资讯等板块.最近在使用 vue2.0开发微信公众号网页 其中涉及到 选择图片, 图片的压缩上传, 预览, 删除等操作。项目整体UI框架使用的是 vux, 但可惜的…

面向对象分析

在需求获取阶段&#xff0c;开发人员关注于理解用户以及他们的使用要求。而在需求分析阶段&#xff0c;开发人员关注于理解系统需要构建的内容&#xff0c;其核心是产生一个准确的、完整的、一致的和可验证的系统模型&#xff0c;称为分析模型。 面对对象的分析模型由三个独立的…

python字典输入学生信息_如何用Python将XML中的所有信息输入字典

我通常使用标准库中的ElementTree模块解析XML。它没有给你一个字典&#xff0c;你得到了一个更有用的DOM结构&#xff0c;它允许你为孩子们遍历每个元素。from xml.etree import ElementTree as ETxml ET.parse("root_element xml.getroot()for child in root_element:.…

HDU4267(2012年长春站)

这道题真的是好题&#xff0c;让我对线段树有了全新的认识&#xff0c;至少让我真正感受到了线段树的神奇。 题意是就是线段树区间更新&#xff0c;单点询问的问题&#xff0c;不过这个题好就好在它的区间更新的点并不连续&#xff01; adding c to each of Ai which satisfies…

ITFriend创业败局(四):菜鸟CEO的自我修养

自创业自封CEO以来&#xff0c;短短3个月&#xff0c;又经历了无数的磨练&#xff0c;快速成长中。创业不同于打工&#xff0c;他要求你必须有全局观和综合能力&#xff0c;技术、市场、商务&#xff0c;啥都得会&#xff0c;还要处理各种各样的问题和矛盾。根据个人经历&#…

51nod 1050 循环数组最大子段和

1050 循环数组最大子段和 N个整数组成的循环序列a[1],a[2],a[3],…,a[n]&#xff0c;求该序列如a[i]a[i1]…a[j]的连续的子段和的最大值&#xff08;循环序列是指n个数围成一个圈&#xff0c;因此需要考虑a[n-1],a[n],a[1],a[2]这样的序列&#xff09;。当所给的整数均为负数时…

mysql设置token有效期_记住我 token保存到数据库

记住我 token保存到数据库这里使用jpamysqlorg.springframework.bootspring-boot-starter-data-jpamysqlmysql-connector-javaspring.datasource.driver-class-namecom.mysql.cj.jdbc.Driverspring.datasource.urljdbc:mysql://127.0.0.1:3306/fly-demo?serverTimezoneUTC&…

Spark- Linux下安装Spark

Spark- Linux下安装Spark 前期部署 1.JDK安装&#xff0c;配置PATH 可以参考之前配置hadoop等配置 2.下载spark-1.6.1-bin-hadoop2.6.tgz,并上传到服务器解压 [rootsrv01 ~]# tar -xvzf spark-1.6.1-hadoop2.6.tgz /usr/spark-1.6.1-hadoop2.6 3.在 /usr 下创建软链接到目标文…

Linux Apache 怎么修改工作模式

Apache默认为prefork模式&#xff0c;主要是考虑到稳定性的原因。  要切换到worker模式&#xff0c;则需要登录到linux上&#xff0c;进行如下操作&#xff1a;  进入/usr/sbin目录  cd /usr/sbin  将当前的prefork模式启动文件改名  mv httpd httpd.prefork  将wo…

python需要背的英语单词怎么写_学Python必须背的42个常见单词,看看你都会吗?...

这42个单词是学习Python必须背会的单词&#xff0c;也是代码中常见的单词。希望你能都背下来&#xff01;&#xff01;1. adult [ˈdʌlt] 成年人2. authentication [ɔːˌθentɪˈkeɪʃn] 身份验证、认证、鉴定3. bit [bɪt] 稍微、小量、小块、一点4. byte [baɪt] …

viewDidLoad、viewWillAppear、viewWillDisappear

- (instancetype)initWithNibName:(NSString *)nibNameOrNil bundle:(NSBundle *)nibBundleOrNil viewDidLoad viewWillAppear viewWillDisapppear《iOS编程》P137关于视图的初始化代码不能写在视图控制器的初始化&#xff08;1&#xff09;&#xff0c;原因如下&#xff1a;为…

asp.net mvc4开启SqlServer 会话共享模式

2019独角兽企业重金招聘Python工程师标准>>> 应用部署结构&#xff08;精简&#xff09;: 站点部署在Nginx后面&#xff0c;以Nginx作为反向代理&#xff0c;不希望在Nginx上设置ip_hash&#xff0c;实现比较真实的负载均衡效果。 这时考虑到需要让site1和site2同时…

SpringMVC中,前台jsp封装参数,绑定参数,传递参数到后台controller的过程详解

前台到后台的流程&#xff1a;前台jsp->后台:controller控制器层->service业务层->DAO数据访问层->数据库model模型层。 从上面流程可知&#xff0c;前台jsp的数据&#xff0c;想要参与到后台的业务逻辑运算&#xff0c;关键是要先把前台jsp的数据传递到后台的cont…

包含min函数的栈 python_面试题_设计包含 min函数的栈

设计包含 min函数的栈()定义栈的数据结构&#xff0c;要求添加一个 minminmin函数&#xff0c;能够得到栈的最小元素。要求函数 min、push以及 pop 的时间复杂度都是 O(1)。#include using namespace std;/*by hk 2015-7-1*/#define MAX ((~(unsigned int )0)-1)/2class stack{…

【转】(五)unity4.6Ugui中文教程文档-------概要-UGUI Interaction Components

原创至上&#xff0c;移步请戳&#xff1a;&#xff08;五&#xff09;unity4.6Ugui中文教程文档-------概要-UGUI Interaction Components 4、Interaction Components 本节涵盖了处理交互&#xff0c;例如鼠标或触摸事件和使用键盘或控制器交互的 UI系统中的组件。 4.1 Select…

j2ee 简单网站搭建:(十)jquery ztree 插件使用入门

为什么80%的码农都做不了架构师&#xff1f;>>> 《j2ee 简单网站搭建&#xff1a;&#xff08;一&#xff09; windows 操作系统下使用 eclipse 建立 maven web 项目》《j2ee 简单网站搭建&#xff1a;&#xff08;二&#xff09;添加和配置 spring spring-mvc 的…