lucene
本文是我们名为“ Apache Lucene基础知识 ”的学院课程的一部分。
在本课程中,您将了解Lucene。 您将了解为什么这样的库很重要,然后了解Lucene中搜索的工作方式。 此外,您将学习如何将Lucene Search集成到您自己的应用程序中,以提供强大的搜索功能。 在这里查看 !
目录
- 1.信息超载/爆炸 2.索引非结构化数据的组件 3.数据搜索的组成部分 4.使用Apache Lucene的简单搜索应用程序 5.下载源代码
1.信息超载/爆炸
如今,应用程序中的搜索功能正变得越来越重要。 毕竟,Web仅仅与信息有关,而所有与在正确的时间和正确的手中获取信息有关。
信息爆炸的形式是,现代世界中已发布的数字信息量Swift增加,以及大量原始数据和非结构化数据的影响。 这种信息爆炸导致我们所有人的信息过载持续不断。
现在,信息超载已成为世界各地办公室中的普遍现象。 一些原因包括:
- 广泛访问网络
- 向大量人发送电子邮件的简便性
- 由于可以免费复制信息,因此制作更多副本不会产生可变成本–人们将报告和信息发送给可能需要知道而不是绝对需要知道的人。
- 信息源创建不当(尤其是在线),这些信息源:
- 没有简化或过滤以使其更短
- 书写不清晰,所以人们不得不花更多的时间来理解它们
- 包含事实错误或不一致之处-需要进一步研究
解
尽管没有上述问题的简单且单一的解决方案,但是可以使用一些方法来缓解该问题。
这些包括:
- 花更少的时间来获取“很想知道”的信息,而将更多的时间花在我们“现在需要知道”的事情上。
- 关注信息的质量,而不是数量。 简短的电子邮件比冗长的电子邮件更有价值。
- 学习如何创建更好的信息。 直截了当地询问我们的问题,以便他们提供准确的答案。
- 单任务处理,使头脑一次专注于一个问题。
现在,除此以外,我们还可以使用开源搜索库Apache Lucene实施信息检索解决方案,只要我们可以从内容存储库中获取文本数据,它就可以从此类非结构化内容中检索信息。
搜索应用程序的简短概述
- 将文件存储在文件系统中。
- 在存储文件时,我们需要在Lucene索引中将文件添加为文档。
- 在删除文件时,我们需要从相应的Lucene索引中删除文件的条目。
- 使用Lucene标准分析器分析文档(我们可以使用其他可插入Lucene的分析器)
- 使用额外的字段(例如文档中的文件路径)更新Lucene索引。
- 从Lucene标准分析开始搜索
- 与针对数百万个文档的关系数据库搜索相比,我们可以以大大提高的速度获得此类搜索的结果。
- 现在,如果我们在Lucene索引存储库中的文件系统中具有该文件的链接,就可以对其进行浏览-这可能是我们的应用目标之一。
当然,以上用例并不是从庞大的信息存储库中所有基于文本的搜索和信息检索的唯一解决方案。 在某些情况下,普通的数据库搜索功能就足够了。 其他工具(例如Apache Hadoop)对数据处理的要求也是可行的选择。
2.索引非结构化数据的组件
索引组件维护文件的目录,这些目录可供用户检索文件。 索引组件是一项可选功能,应安装在用户可以访问以进行文件检索的任何服务器上。 索引组件支持按文件,文件版本和近期活动进行搜索。
让我们研究与Lucene Indexing相关的一些术语:
索引实体
存储在Lucene索引存储库中的那些文件或信息称为索引实体。
每个Lucene索引由一个由名称唯一标识的索引管理器管理。 在大多数情况下,索引实体和单个IndexManager
之间也存在一对一关系(管理索引)。 索引分片和索引共享的用例除外。 当单个实体的索引太大而索引操作使应用程序变慢时,可以应用前者。 在这种情况下,单个实体被索引为多个索引,每个索引都有自己的索引管理器。 后者是索引共享,是将多个实体索引到同一Lucene索引中的功能。
分片索引
在某些情况下,将给定实体的索引数据拆分(分片)为多个Lucene索引可能很有用。
分片的可能用例是:
- 单个索引是如此之大,以至于索引更新时间使应用程序变慢。
- 典型的搜索只会命中索引的子集,例如当数据按客户,地区或应用程序自然细分时。
共享索引
从技术上讲,可以将多个实体的信息存储到单个Lucene索引中。 有两种方法可以实现此目的:
- 配置基础目录提供程序以指向相同的物理索引目录。 对于家具和动物实体,我们应该使用相同的索引(目录)。 我们只是将两个实体的
indexName
设置为“ Animal”。 然后,两个实体都将存储在Animal目录中。 - 将要合并的实体的
@Indexed
批注的index属性设置为相同的值。 如果我们再次希望所有的Furniture实例以及所有的Animal实例都在Animal索引中被索引,我们将在Animal和Furniture类上都指定@Indexed(index="Animal")
。
3.数据搜索的组成部分
核心索引类
Lucene能够获得快速的搜索响应,因为它不是直接搜索文本,而是搜索索引。 这相当于通过搜索书后的索引来检索与关键字相关的书中的页面,而不是在书的每一页中搜索单词。
这种类型的索引称为反向索引,因为它会将以页面为中心的数据结构(page-> words)转换为以关键字为中心的数据结构(word-> pages)。
我们可以相应地整理核心索引类,
- 索引作家
- 目录
- 分析仪
- 文件
- 领域
要创建索引,首先要做的是创建一个IndexWriter
对象。 IndexWriter
对象用于创建索引并向该索引添加新的索引条目(即Documents)。 您可以创建一个IndexWriter
,如下所示:
IndexWriter indexWriter = new IndexWriter("index-directory", new StandardAnalyzer(), true);
第一个参数指定将在其中创建Lucene索引的目录,在本例中为index-directory。 第二个参数指定在Lucene为您的数据建立索引时将使用的“文档解析器”或“文档分析器”。 在这里,我们为此使用StandardAnalyzer
。 有关Lucene分析仪的更多详细信息将很快出现。 第三个参数告诉Lucene如果尚未在目录中创建索引,则创建一个新索引。
文档是索引和搜索过程的单位。
字段是Lucene的实际内容所有者。 它们基本上是一个具有名称和值的哈希表。
IndexWriter
创建并维护索引。
构造函数的create
参数确定是创建新索引还是打开现有索引。 即使读者正在使用索引,我们也可以使用“ create = true”打开索引。 旧的读者将继续搜索他们已打开的“时间点”快照,直到重新打开后才能看到新创建的索引。 还有一些没有create参数的构造函数,如果提供的路径上没有索引,则会创建新索引,否则将打开现有索引。
自上次刷新以来(以较早者为准),在上述方法调用过程中所做的更改将存储在内存中,并在有足够的缓冲删除或添加的文档时触发刷新。 冲洗也可以被强制调用。 进行刷新时,未完成的删除和添加的文档都将刷新到索引。 刷新也可能触发一个或多个段合并。
构造函数的可选autoCommit
参数控制对读取相同索引的IndexReader
实例IndexReader
更改的可见性。 如果为false,则在调用close()
之前看不到更改。 更改仍将作为新文件刷新到目录中,但不会被提交(不会写入新的segment_N文件引用新文件),直到调用close()
为止。 如果在close()
)之前发生了严重错误(例如JVM崩溃),则索引将不反映所做的任何更改(它将保持其初始状态)。 我们还可以调用abort()
,它在不进行任何更改的情况下关闭编写器,并删除所有已刷新但现在未引用的索引文件。 此模式对于防止读者在不好的时间刷新(例如在完成所有删除之后但在完成添加之前)很有用。 它也可以用于实现简单的单作者事务性语义(“全部或全部”)。
当autoCommit
为true时,则每次刷新也是一次提交。 在这种模式下运行时,应记住一件事,即在进行优化或段合并时,读者不应刷新,因为这会占用大量磁盘空间。
无论autoCommit
如何, IndexReader
或IndexSearcher
只会在打开索引的“时间点”看到该索引。 打开阅读器后,提交给索引的任何更改将不可见,直到重新打开阅读器为止。
如果在一段时间内不再添加更多文档,并且需要最佳搜索性能,则应在关闭索引之前调用优化方法。
打开IndexWriter
会为使用中的目录创建一个锁定文件。 尝试在同一目录上打开另一个IndexWriter
将导致LockObtainFailedException
。 如果使用同一目录上的IndexReader
从索引中删除文档,也会引发LockObtainFailedException
。
核心搜索课程
核心搜索类是:
- IndexSearcher
- 术语
- 询问
- 术语查询
- 顶级文档
Lucene使用恰当命名的IndexReader
实例从索引中读取数据。
Lucene提供了执行实际搜索的IndexSearcher
类。 每个索引搜索器都会包装一个索引读取器,以获取索引数据的句柄。 有了索引搜索器后,我们可以为其提供查询并按得分顺序枚举结果。 除了索引阅读器之外,在索引搜索器中实际上没有什么可配置的。
IndexSearcher
实例是完全线程安全的,这意味着多个线程可以同时调用其任何方法。 如果应用程序需要外部同步,则无需在IndexSearcher
实例上进行同步。 我们可以使用我们自己的(非Lucene)对象。
这是IndexReader
类的语法:
IndexSearcher is = new IndexSearcher(path);
查询分为术语和运算符。 术语有两种:单项和短语。
单个术语是一个单词,例如“ test”或“ hello”。
词组是由双引号括起来的一组单词,例如“ hello User”。
可以将多个术语与布尔运算符组合在一起以形成更复杂的查询。
Lucene支持字段数据,Search Lucene API模块经常在分面搜索中使用这些数据。 默认情况下,Search Lucene API搜索内容字段。 但是,您可以通过键入字段名称后跟冒号“:”和我们要查找的术语来搜索特定字段中的数据。
例如,如果我们搜索名为“ The Right Way”的节点,其中包含文本“ go”,则可以输入:
title:"The Right Way" AND contents:go
要么
title:"The Right Way" AND go
由于内容是默认字段,因此不需要字段指示符。
该字段仅对其直接在前的术语有效,因此查询
title:Right Way
只会在标题字段中找到“右”。 它将尝试在默认字段(本例中为内容字段)中查找“ way”。
下面列出了所有可用的字段类型,
- 未储存
- 关键词
- 未索引
- 文本
- 二元
TopDocs
是文档的集合,这些文档在使用查询字符串进行搜索后进行了排序。 最匹配的文档在TopDocs顶部列出。
对于搜索操作,需要一个IndexSearcher
类,该类实现了主要的搜索方法。 对于每次搜索,都需要一个新的Query对象,并且可以从QueryParser
实例中获得该对象。 请注意,必须使用与创建索引相同的分析器类型来创建QueryParser
,在本例中为SimpleAnalyzer
。 根据JavaDocs的说法,Version也用作构造函数参数,并且是一个“被某些类用来在Lucene的各个发行版之间匹配版本兼容性”的类。
当由IndexSearcher
执行搜索时,将作为执行结果返回TopDocs
对象。 此类仅表示搜索结果,并允许我们检索ScoreDoc
对象。 使用ScoreDocs
我们找到符合搜索条件的文档,然后从这些文档中检索所需的信息。 让我们看看所有这些都在起作用。
4.使用Apache Lucene的简单搜索应用程序
在开始我们的第一个搜索应用程序之前,我们必须下载最新版本的Lucene。
我们已经下载了4.6版的Lucene jar文件。
接下来,我们必须构建一个名为“ LuceneWink”的项目,并将jar文件添加到该项目的类路径中。
在开始运行搜索查询之前,我们需要构建一个索引,将针对该索引执行查询。 这将在名为IndexWriter
的类的帮助下完成,该类是创建和维护索引的类。 IndexWriter接收文档作为输入,其中文档是索引和搜索的单位。 每个Document
实际上是一组字段,并且每个字段都有一个名称和一个文本值。 要创建IndexWriter
,需要一个分析器。 此类是抽象的,我们将使用的具体实现是SimpleAnalyzer
。
我们将尝试找出包含将在以下应用程序中作为查询提供的字符串的文件。
因此,我们必须建立文件索引并对其进行搜索,然后在其中进行搜索操作。
这是示例程序,注释以内联方式给出:
package com.wf.lucene;import java.io.File;
import java.io.FileReader;
import java.util.ArrayList;import org.apache.lucene.analysis.standard.StandardAnalyzer;
import org.apache.lucene.document.Document;
import org.apache.lucene.document.Field;
import org.apache.lucene.document.StringField;
import org.apache.lucene.document.TextField;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.IndexReader;
import org.apache.lucene.index.IndexWriter;
import org.apache.lucene.index.IndexWriterConfig;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;
import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TopScoreDocCollector;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.util.Version;public class LuceneOnFileSystemExample {static String DATA_FOLDER = "/home/piyas/Documents/Winkframe/sample_text_files/drugs/"; // Where the files are.static String INDEX_FOLDER = "/home/piyas/Documents/Winkframe/sample_text_files/drugindex/"; // Where the Index files are.private static StandardAnalyzer analyzer = new StandardAnalyzer(Version.LUCENE_46);private static IndexWriter writer;private static ArrayList<File> queue = new ArrayList<File>();public static void indexFilesAndShowResults(String dataFilePath,String indexFilePath,String searchTerm) throws Exception {// Indexing partindexOnThisPath(indexFilePath); // Function for setting the Index PathindexFileOrDirectory(dataFilePath); // Indexing the filescloseIndex(); //Function for closing the files// Search PartsearchInIndexAndShowResult(indexFilePath, searchTerm);}public static void searchInIndexAndShowResult(String indexFilePath,String searchString) throws Exception{IndexReader reader = DirectoryReader.open(FSDirectory.open(new File(indexFilePath))); // The api call to read the indexIndexSearcher searcher = new IndexSearcher(reader); // The Index Searcher ComponentTopScoreDocCollector collector = TopScoreDocCollector.create(5, true);Query q = new QueryParser(Version.LUCENE_46, "contents", analyzer).parse(searchString);searcher.search(q, collector);ScoreDoc[] hits = collector.topDocs().scoreDocs;// display resultsSystem.out.println("Found " + hits.length + " hits.");for(int i=0;i<hits.length;++i) {int docId = hits[i].doc;Document d = searcher.doc(docId);System.out.println((i + 1) + ". " + d.get("path") + " score=" + hits[i].score); // Found the document}}public static void closeIndex() throws Exception {writer.close(); // Close the Index}public static void indexOnThisPath(String indexDir) throws Exception {// the boolean true parameter means to create a new index everytime,// potentially overwriting any existing files there.FSDirectory dir = FSDirectory.open(new File(indexDir));IndexWriterConfig config = new IndexWriterConfig(Version.LUCENE_46, analyzer);writer = new IndexWriter(dir, config);}/*** Indexes a file or directory* @param fileName the name of a text file or a folder we wish to add to the index* @throws java.io.IOException when exception*/public static void indexFileOrDirectory(String filePath) throws Exception {// Adding the files in lucene index//===================================================//gets the list of files in a folder (if user has submitted//the name of a folder)//===================================================addFiles(new File(filePath));int originalNumDocs = writer.numDocs();for (File f : queue) {FileReader fr = null;try {Document doc = new Document();//===================================================// add contents of file//===================================================fr = new FileReader(f);doc.add(new TextField("contents", fr));doc.add(new StringField("path", f.getPath(), Field.Store.YES));doc.add(new StringField("filename", f.getName(), Field.Store.YES));writer.addDocument(doc);System.out.println("Added: " + f);} catch (Exception e) {System.out.println("Could not add: " + f);} finally {fr.close();}}int newNumDocs = writer.numDocs();System.out.println("");System.out.println("************************");System.out.println((newNumDocs - originalNumDocs) + " documents added.");System.out.println("************************");queue.clear();}private static void addFiles(File file) {if (!file.exists()) {System.out.println(file + " does not exist.");}if (file.isDirectory()) {for (File f : file.listFiles()) {addFiles(f);}} else {String filename = file.getName().toLowerCase();//===================================================// Only index text files//===================================================if (filename.endsWith(".htm") || filename.endsWith(".html") ||filename.endsWith(".xml") || filename.endsWith(".txt")) {queue.add(file);} else {System.out.println("Skipped " + filename);}}}/*** @param args*/public static void main(String[] args) {// TODO Auto-generated method stubtry{indexFilesAndShowResults(DATA_FOLDER,INDEX_FOLDER,"HIV"); // Indexing files and Searching the word from files.}catch(Exception e){e.printStackTrace();}}}
本文随附了示例应用程序。
我们提供索引目录,搜索查询字符串和最大匹配数,然后调用searchIndex
方法。 在该方法中,我们创建一个IndexSearcher
, QueryParser
和Query对象。 请注意, QueryParser
使用了我们用于使用IndexWriter
创建文档的字段的名称(“内容”),并且再次使用了相同类型的分析器( SimpleAnalyzer
)。 我们执行搜索,并为找到匹配项的每个Document提取包含文件名(“ filename”)的字段的值,然后进行打印。
在这里,我们使用Apache Lucene创建了一个简单的搜索应用程序。 在下一篇文章中,我们将使用更高级的查询以及Lucene索引和搜索的其他高级选项。
5.下载源代码
您可以下载源代码, 在这里和数据归档在这里 。
翻译自: https://www.javacodegeeks.com/2015/09/lucene-components-overview.html
lucene