使用Apache Lucene 4.3轻松进行搜索

Lucene是用Java编写的全文搜索引擎,可以为任何应用程序提供强大的搜索功能。 Lucene的核心是基于文件的全文本索引。 Lucene提供API创建该索引,然后向该索引添加和删除内容。 此外,它允许使用功能强大的搜索算法从该索引中搜索和检索信息。 可以从不同的来源(如数据库,文件系统以及网站)中提取存储的数据。 在开始之前,让我们先考虑一下。

倒排索引

倒排索引是一种数据结构,用于存储内容的映射以及包含该内容的对象的位置。 为了更加清楚,这里有一些示例

  1. 图书索引图书索引包含重要的单词以及包含这些单词的页面。 因此,书索引可帮助我们导航到包含特定单词的页面。
  2. 使用价格范围列出葡萄酒 –价格范围是内容,葡萄酒名称是具有该价格范围的对象
  3. 网站索引 -通过关键字列出网站地址。 例如,所有包含关键字“ Apache Lucene”的网页的列表
  4. 购物车 –按类别列出购物车中的物品。  

多面搜索

任何对象都可以具有多个属性,每个属性是该对象的一个方面分面搜索使我们能够基于多个分面来搜索对象的集合。 多面搜索也称为多面导航或多面浏览 ,它使我们可以搜索根据多面组织结构组织的信息

考虑一个购物车中的商品示例。 商品可以具有多个类别,例如类别,标题,价格,颜色,重量等。现在,商品搜索可以让我们搜索花园类别中所有具有红色且价格在30卢比到Rs之间的商品.40。

Lucene为我们提供了一个API

  1. 创建一个倒排索引。
  2. 根据分面分类存储信息。
  3. 使用分面搜索检索信息。

所有这些使Lucene成为超快速的搜索引擎,它返回超相关的搜索结果。

Lucene功能

  1. 相关性排名搜索
  2. 短语,接近度,通配符搜索。
  3. 可插入式山墙分析仪。
  4. 多面搜索。
  5. 基于字段的排序
  6. 范围查询
  7. 多重索引搜索。
  8. 快速索引150GB /小时。
  9. 轻松备份和还原。
  10. 小内存需求。
  11. 增量加法和快速搜索。

有关完整列表,请访问此处: http : //lucene.apache.org/core/features.html

Lucene概念和术语

  1. 索引编制–索引编制涉及通过称为“ IndexWriter ”的类将文档添加到Lucene索引中。
  2. 搜索 –搜索涉及借助名为“ IndexSearcher ”的类从Lucene索引中检索文档。
  3. 文档 – Lucene文档是单个搜索和索引单元。 例如购物车中的物品。 Lucene索引可以包含数百万个文档。
  4. 字段 –字段是任何文档的属性。 换句话说,字段是作为对象的文档的各个方面。 例如,购物车中某项目的类别。 每个文档可以具有多个字段。
  5. 查询 – Lucene有自己的查询语言。 这使我们可以基于多个字段搜索文档。 我们可以为一个字段分配权重,也可以对查询使用布尔表达式,例如和和或。 例如– 返回购物车中属于花园或家庭类别且颜色为红色且价格低于1000卢比的所有物品。
  6. 分析器 –要对字段文本进行索引时,需要将其转换为最基本的形式。 首先,将它们标记化,然后将其转换为小写字母,标记化,去斑点化。 这些任务由分析器执行。 分析仪非常复杂,我们需要深入研究如何使用它们。 大多数情况下,内置分析仪不能满足我们的要求,在这种情况下,我们可以创建一个新的分析仪。 在本教程中,我们将使用StandardAnalyzer,因为它们包含了我们所需的大多数基本功能。

教程目标

  1. 尝试创建一个Lucene索引。
  2. 在其中插入书籍记录。
  3. 在此索引上执行各种搜索。

  1. 书名(字符串
  2. 图书作者(字符串)
  3. 图书类别(字符串)
  4. #Pages(int)
  5. 价格(浮动)

本教程的代码已提交给SVN。 可以从以下位置检出: https : //www.assembla.com/code/weblog4j/subversion/nodes/24/SpringDemos/trunk

这是一个扩展项目,包含更多教程。 lucene类位于com.aranin.spring.lucene包中

  1. LuceneUtil –此类包含创建索引,创建IndexWriter和IndexSearcher的实用方法。
  2. MySearcherManager –此类使用LuceneUtil并对索引执行搜索。
  3. MyWriterManager –此类使用LuceneUtil并对索引执行写入。

逐步演练

1. 依赖关系 –依赖关系可以通过maven添加

<dependency><artifactId>lucene-core</artifactId><groupId>org.apache.lucene</groupId><type>jar</type><version>${lucene-version}</version></dependency><dependency><artifactId>lucene-queries</artifactId><groupId>org.apache.lucene</groupId><type>jar</type><version>${lucene-version}</version></dependency><dependency><artifactId>lucene-queryparser</artifactId><groupId>org.apache.lucene</groupId><type>jar</type><version>${lucene-version}</version></dependency><dependency><artifactId>lucene-analyzers-common</artifactId><groupId>org.apache.lucene</groupId><type>jar</type><version>${lucene-version}</version></dependency><dependency><artifactId>lucene-facet</artifactId><groupId>org.apache.lucene</groupId><type>jar</type><version>${lucene-version}</version></dependency>

2. 创建索引 –可以通过在创建模式下创建IndexWriter来创建索引。

public void createIndex() throws Exception {boolean create = true;File indexDirFile = new File(this.indexDir);if (indexDirFile.exists() && indexDirFile.isDirectory()) {create = false;}Directory dir = FSDirectory.open(indexDirFile);Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43);IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);if (create) {// Create a new index in the directory, removing any// previously indexed documents:iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE);}IndexWriter writer = new IndexWriter(dir, iwc);writer.commit();writer.close(true);}
  • indexDir是您要在其中创建索引的目录。
  • 目录是用于存储索引的文件的平面列表。 它可以是RAMDirectory,FSDirectory或基于DB的目录。
  • FSDirectory实现目录并将索引保​​存在文件系统中的文件中。
  • IndexWriterConfig.Open模式在create或create_append或appned模式下创建编写器。 如果创建模式不存在或覆盖现有索引,则创建模式将创建一个新索引。 为了创建目的,我们创建一个现有的。
  • 调用上述方法将创建一个空索引。

3. 写入索引 –创建索引后,我们可以向其中写入文档。 这可以通过以下方式完成。

public void createIndexWriter() throws Exception {boolean create = true;File indexDirFile = new File(this.indexDir);Directory dir = FSDirectory.open(indexDirFile);Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43);
<span style="color: #222222; font-family: 'Courier 10 Pitch', Courier, monospace; line-height: 21px;">IndexWriterConfig iwc = new IndexWriterConfig(Version.LUCENE_43, analyzer);</span>iwc.setOpenMode(IndexWriterConfig.OpenMode.CREATE_OR_APPEND);this.writer = new IndexWriter(dir, iwc);}

上面的方法在create_append模式下创建一个writer。 在这种模式下,如果创建了索引,则不会覆盖它。 您可以注意到,此方法不会关闭编写器。 它只是创建并返回它。 创建IndexWriter是一项昂贵的操作。 因此,我们不应该在每次必须将文档写入索引时都创建作者。 相反,我们应该创建一个IndexWriter池并使用线程系统从池中将写入器写入索引,然后将写入器返回到池中。

public void addBookToIndex(BookVO bookVO) throws Exception {Document document = new Document();document.add(new StringField("title", bookVO.getBook_name(), Field.Store.YES));document.add(new StringField("author", bookVO.getBook_author(), Field.Store.YES));document.add(new StringField("category", bookVO.getCategory(), Field.Store.YES));document.add(new IntField("numpage", bookVO.getNumpages(), Field.Store.YES));document.add(new FloatField("price", bookVO.getPrice(), Field.Store.YES));IndexWriter writer =  this.luceneUtil.getIndexWriter();writer.addDocument(document);writer.commit();}

插入时,我们不会在代码中创建编写器。 取而代之的是,我们使用了一个预先创建的writer,它被存储为实例变量。

4. 搜索索引 –这又分两个步骤完成:1.创建IndexSearcher 2.创建查询并进行搜索。

public void createIndexSearcher(){IndexReader indexReader = null;IndexSearcher indexSearcher = null;try{File indexDirFile = new File(this.indexDir);Directory dir = FSDirectory.open(indexDirFile);indexReader  = DirectoryReader.open(dir);indexSearcher = new IndexSearcher(indexReader);}catch(IOException ioe){ioe.printStackTrace();}this.indexSearcher = indexSearcher;}

注–搜索器中使用的分析器应与用于创建编写器的分析器相同,因为分析器负责将数据存储在索引中的方式。 再次创建IndexSearcher是一项昂贵的操作,因此预创建IndexSearcher池并以与IndexWriter类似的方式使用它是有意义的。

public List<BookVO> getBooksByField(String value, String field, IndexSearcher indexSearcher){List<BookVO> bookList = new ArrayList<BookVO>();Analyzer analyzer = new StandardAnalyzer(Version.LUCENE_43);QueryParser parser = new QueryParser(Version.LUCENE_43, field, analyzer);try {BooleanQuery query = new BooleanQuery();query.add(new TermQuery(new Term(field, value)), BooleanClause.Occur.MUST);//Query query = parser.Query(value);int numResults = 100;ScoreDoc[] hits =   indexSearcher.search(query,numResults).scoreDocs;for (int i = 0; i < hits.length; i++) {Document doc = indexSearcher.doc(hits[i].doc);bookList.add(getBookVO(doc));}} catch (IOException e) {e.printStackTrace(); }return bookList;
}

预创建了IndexSearcher并将其传递给该方法。 搜索的主要部分是查询形成。 Lucene支持许多不同种类的查询器。

  1. TermQuery
  2. BooleanQuery
  3. WildcardQuery
  4. PhraseQuery
  5. PrefixQuery
  6. MultiPhraseQuery
  7. FuzzyQuery
  8. RegexpQuery
  9. TermRangeQuery
  10. NumericRangeQuery
  11. ConstantScoreQuery
  12. DisjunctionMaxQuery
  13. MatchAllDocsQuery

您可以为搜索选择适当的查询。 可以从此处了解查询语言的语法: http : //lucene.apache.org/core/old_versioned_docs/versions/2_9_1/queryparsersyntax.pdf

资源资源

  1. http://lucene.apache.org/core/old_versioned_docs/versions/2_9_1/queryparsersyntax.pdf
  2. http://lucene.apache.org/core/old_versioned_docs/versions/3_1_0/api/all/org/apache/lucene/index/IndexWriterConfig.OpenMode.html
  3. http://lucene.apache.org/core/old_versioned_docs/versions/3_5_0/api/all/org/apache/lucene/store/FSDirectory.html
  4. https://today.java.net/pub/a/today/2003/07/30/LuceneIntro.html
  5. http://www.lucenetutorial.com/lucene-query-syntax.html
  6. http://lucene.apache.org/core/4_3_0/core/org/apache/lucene/search/Query.html

摘要

搜索仍然是任何内容驱动的应用程序的骨干。 传统的数据库驱动的搜索功能不是很强大,还有很多不足之处。 因此,需要一种快速,准确且功能强大的搜索解决方案,该解决方案可以轻松地并入应用程序代码中。 Lucene很好地填补了这一空白,它使搜索变得轻而易举,并得到强大的搜索算法数组的支持,例如相关性排名,词组,通配符,接近度和范围搜索。 它还具有空间和内存效率。 难怪在Lucene之上构建了如此多的应用程序。 本文旨在提供有关如何为亲爱的读者提供Lucene入门工具的基础教程。 还有很多话要说,但是那您不想自己探索吗?

参考:通过Weblog4j博客的JCG合作伙伴 Niraj Singh, 使用Apache Lucene 4.3可以轻松进行搜索 。

翻译自: https://www.javacodegeeks.com/2013/06/searching-made-easy-with-apache-lucene-4-3.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/367740.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Html5中新增的表单元素详解

HTML5 的新的表单元素&#xff1a; HTML5 拥有若干涉及表单的元素和属性。•datalist•keygen•outputdatalist 元素datalist 元素规定输入域的选项列表。列表是通过 datalist 内的 option 元素创建的。如需把 datalist 绑定到输入域&#xff0c;请用输入域的 list 属性引用 da…

今日学到乱写

EXPLAIN 直接上图 一个个说&#xff1a; select_type 查询中每个select子句的类型&#xff08;简单OR复杂&#xff09; a. SIMPLE&#xff1a;查询中不包含子查询或者UNION b. 查询中若包含任何复杂的子部分&#xff0c;最外层查询则被标记为&#xff1a;PRIMARY c. 在SELECT或…

JavaScript日期格式化处理

1 /**2 * 获取年月&#xff0c;如&#xff1a;2018-083 */4 export function getMonth () {5 return formatDate(new Date(), yyyy-MM)6 }7 8 /**9 * 10 * param {*} date 11 * param {*} fmt : yyyy-MM、yyyy-MM-dd、yyyy-MM-dd hh:mm、yyyy-MM-dd hh:mm:ss 12 */ 13 …

在JBoss AS 7上部署BroadleafCommerce 2.0

前2个步骤与Broadleaf的具体联系并不紧密&#xff0c;但提到该步骤使执行&#xff08;复制/粘贴&#xff09;这些步骤变得容易。 步骤&#xff03;1&#xff1a;在JBoss AS中配置数据源。 <datasource jta"true" jndi-name"java:jboss/datasources/Broadlea…

hash的算法 java_【数据结构与算法】一致性Hash算法及Java实践

追求极致才能突破极限一、案例背景1.1 系统简介首先看一下系统架构&#xff0c;方便解释&#xff1a;页面给用户展示的功能就是&#xff0c;可以查看任何一台机器的某些属性(以下简称系统信息)。消息流程是&#xff0c;页面发起请求查看指定机器的系统信息到后台&#xff0c;后…

MySQL之汇总数据(AVG,COUNT,MAX,MIN,SUM)

备注&#xff1a;sum和count的不同&#xff1a;count()函数里面的参数是列名的的时候,那么会计算有值项的次数。 //行数Sum()函数里面的参数是列名的时候&#xff0c;是计算列名的值的相加&#xff0c;而不是有值项的总数。 //行内数据的和table testFieldTypeNullKeyDefault…

使用HTML5实现地理位置定位

HTML5 Geolocation&#xff08;地理定位&#xff09;用于定位用户的位置。定位用户的位置HTML5 Geolocation API 用于获得用户的地理位置。鉴于该特性可能侵犯用户的隐私&#xff0c;除非用户同意&#xff0c;否则用户位置信息是不可用的。浏览器支持Internet Explorer 9、Fire…

暑假第五周计划

在上一周根据视频在电脑上安装了一个伪Hadoop&#xff0c;只有一个虚拟机&#xff0c;并且配置好了环境变量&#xff0c;可以在命令行运行程序自带的一些例子&#xff0c;比如计算圆周率&#xff0c;统计文本文件的字符数 遇到的问题主要就是对linux的操作命令不熟悉&#xff0…

Java EE CDI依赖关系消歧示例

在本教程中&#xff0c;我们将向您展示如何避免CDI bean中的依赖关系消除歧义。 在CDI中&#xff0c;我们可以为应用程序中不同客户端的接口的多个实现实现依赖项注入。 依赖关系消除歧义的问题是客户端如何在不同的实现中调用特定的实现&#xff0c;而不会发生任何错误。 为了…

linux java 安装配置_类Linux环境安装jdk1.8及环境变量配置详解

配置很简单&#xff0c;但是每次都要查一下&#xff0c;索性就记录下1. 安装前准备1.1 创建安装目录&#xff0c;习惯上通常安装在/usr/local/jdk8目录下mkdir /usr/local/jdk81.2 查看是否安装过jdk&#xff0c;安装前要把之前的删除干净# 通过jdk环境变量查看echo $JAVA_HOME…

Mac版Anaconda安装R语言iGraph包

Anaconda官网给出的R语言Igraph包安装方法&#xff1a;https://anaconda.org/r/r-igraph 查阅Anaconda官方文档&#xff0c;可以通过以下控制台命令安装R语言Igraph包。 conda install -c r r-igraph 在控制台执行后&#xff0c;系统可能会提示未找到conda指令&#xff0c; 所以…

Html5中Canvas(画布)的使用

什么是 Canvas&#xff1f;HTML5 的 canvas 元素使用 JavaScript 在网页上绘制图像。画布是一个矩形区域&#xff0c;您可以控制其每一像素。canvas 拥有多种绘制路径、矩形、圆形、字符以及添加图像的方法。创建 Canvas 元素向 HTML5 页面添加 canvas 元素。规定元素的 id、宽…

20180813-20180817

这周没怎么学...&#xff08;哼没学还这么理直气壮&#xff01;&#xff09; 上周公司项目更新了一个版本 里面不小心用了es6的代码 然后好多低版本的手机就跑不起来了 这还是上线了半天之后才发现的 在这说一下 ios10.3以前的版本不支持es6 Android6.0以下不支持es6 最近一直…

多个动态包含一个JSF标签

每个JSF开发人员都知道ui&#xff1a;include和ui&#xff1a;param标签。 您可以包括一个facelet&#xff08;XHTML文件&#xff09;并传递一个对象&#xff0c;该对象将在包含的facelet中可用&#xff0c;如下所示&#xff1a; <ui:include src"/sections/columns.x…

java map遍历最快_Java Map遍历速度最优解

第一种:Map map new HashMap();Iterator iter map.entrySet().iterator();while (iter.hasNext()) {Map.Entry entry (Map.Entry) iter.next(); Object key entry.getKey();Object val entry.getValue();}效率高,以后一定要使用此种方式!第二种:Map map new HashMap();It…

[JLOI2014]松鼠的新家

嘟嘟嘟 这还是一道树链剖分板子题呀&#xff01; 从1到n - 1枚举a[i]&#xff0c;每一次使节点a[i]到a[i 1]的路径加1&#xff0c;但这样的话除a[1]&#xff0c;每一个点都多加了一个1&#xff0c;所以输出答案的时候减1即可。 1 #include<cstdio>2 #include<iostrea…

Html5中的Video元素使用方法

现在互联网视频大都使用Flash来实现。但是不同的浏览器可能使用不同的插件。在HTML5中则提供了一个统一的方式来展示视频内容。HTML5 video在Internet Explorer 9, Firefox, Opera, Chrome, 和Safari都支持。IE8及其更早的浏览器不支持。 代码如下 <SPAN style"COLOR:…

CSS3-背景(background-image、background-size、background-origin、background-clip)

CSS3中新的背景属性&#xff1a;background-image、background-size、background-origin、background-clip 背景图片&#xff1a;background-image CSS3中可以通过background-image属性添加背景图片。 不同的背景图像和图像用逗号隔开&#xff0c;所有的图片中显示在最顶端的为…

使用String.intern()减少内存使用

时不时地会有一个垂死的生产应用程序。 而且您知道您需要尽快对其进行修补。 我们也一样&#xff0c;并认为分享最近的一个战争故事将很有趣。 在这种情况下&#xff0c;我们就有机会使用String.intern&#xff08;&#xff09;之类的简单补丁来修补应用程序。 但是&#xff0c…

CSS实现比翼双飞和圣杯布局模型效果

圣杯模型和比翼双飞模型主要的特指1.首先加载的是中间部分&#xff0c;其次是左边&#xff0c;然后是右边 2.中间是自适应&#xff0c;二边是定宽 实现方法1.grid2.margin float position:releative父亲加padding 挤进去3.margin float box-size:border-box 1.gridhtml:&l…