Lucene4：创建查询，并高亮查询关键词

1. 要求

环境：

　　Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本
功能：
　　1).高亮查询演示

注意：

此篇文章开始，索引目录将不再使用示范目录，而是使用真实的数据。即LUCENE_INDEX_DIR = "C:\\lucene\\data"改到了LUCENE_INDEX_DIR = "C:\\solr\\news\\data\\index"。

2. 实现代码

package com.clzhang.sample.lucene;import java.io.*;import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;
import org.apache.lucene.document.Document;
import org.apache.lucene.index.DirectoryReader;
import org.apache.lucene.index.Term;
import org.apache.lucene.store.Directory;
import org.apache.lucene.store.FSDirectory;
import org.apache.lucene.queryparser.classic.QueryParser;
import org.apache.lucene.search.IndexSearcher;import org.apache.lucene.search.Query;
import org.apache.lucene.search.ScoreDoc;
import org.apache.lucene.search.TermQuery;
import org.apache.lucene.search.TopDocs;
import org.apache.lucene.search.highlight.Fragmenter;
import org.apache.lucene.search.highlight.Highlighter;
import org.apache.lucene.search.highlight.QueryScorer;
import org.apache.lucene.search.highlight.SimpleSpanFragmenter;
import org.apache.lucene.search.highlight.SimpleHTMLFormatter;
import org.apache.lucene.search.highlight.TokenSources;
import org.apache.lucene.util.Version;import com.chenlb.mmseg4j.Dictionary;
import com.chenlb.mmseg4j.analysis.SimpleAnalyzer;
import com.chenlb.mmseg4j.analysis.ComplexAnalyzer;import org.junit.Test;/*** 环境：Lucene 4.1版本/IKAnalyzer 2012 FF版本/mmseg4j 1.9版本* 功能：* 1.高亮查询演示* @author Administrator**/
public class HighlightDemo {// mmseg4j字典路径private static final String MMSEG4J_DICT_PATH = "C:\\solr\\news\\conf";private static Dictionary dictionary = Dictionary.getInstance(MMSEG4J_DICT_PATH);// Lucene索引存放路径 private static final String LUCENE_INDEX_DIR = "C:\\solr\\news\\data\\index";@Testpublic void testHighlighting() throws Exception {// 独立测试Highlighting的代码String text = "台保钓人士拟起诉日当局 感谢大陆海监船驰援";TermQuery query = new TermQuery(new Term("title", "当局"));TokenStream tokenStream = new ComplexAnalyzer(dictionary).tokenStream("title", new StringReader(text));QueryScorer scorer = new QueryScorer(query, "title");Fragmenter fragmenter = new SimpleSpanFragmenter(scorer);Highlighter highlighter = new Highlighter(scorer);highlighter.setTextFragmenter(fragmenter);String hlText = highlighter.getBestFragment(tokenStream, text);System.out.println(hlText);System.out.println("--------------------------");}@Testpublic void doHighlightQuery() throws Exception {// 实例化IKAnalyzer分词器
//        Analyzer analyzer = new IKAnalyzer();// 实例化mmseg4j分词器Analyzer analyzer = new SimpleAnalyzer(dictionary);// 实例化搜索器Directory directory = FSDirectory.open(new File(LUCENE_INDEX_DIR));DirectoryReader reader = DirectoryReader.open(directory);IndexSearcher searcher = new IndexSearcher(reader);final String FIELD_NAME = "webTitle";String keyword = "记者";// 使用QueryParser查询分析器构造Query对象QueryParser qp = new QueryParser(Version.LUCENE_41, FIELD_NAME, analyzer);Query query = qp.parse(keyword);// 搜索相似度最高的5条记录TopDocs hits = searcher.search(query, 5);System.out.println("命中：" + hits.totalHits);// 高亮代码1QueryScorer scorer = new QueryScorer(query, FIELD_NAME);// 下面是指定高亮代码样式的代码SimpleHTMLFormatter simpleHtmlFormatter = new SimpleHTMLFormatter("<EM>", "</EM>"); Highlighter highlighter = new Highlighter(simpleHtmlFormatter, scorer);highlighter.setTextFragmenter(new SimpleSpanFragmenter(scorer));// 输出结果for (ScoreDoc scoreDoc : hits.scoreDocs) {Document doc = searcher.doc(scoreDoc.doc);String title = doc.get(FIELD_NAME);// 高亮代码2TokenStream stream = TokenSources.getAnyTokenStream(searcher.getIndexReader(), scoreDoc.doc, FIELD_NAME, doc, analyzer);String fragment = highlighter.getBestFragment(stream, title);System.out.println(fragment);}reader.close();directory.close();System.out.println("--------------------------");}
}

输出：

台保钓人士拟起诉日当局 感谢大陆海监船驰援
--------------------------
命中：125
浙江杭州一男子涉嫌殴打记者被警方抓获
领导快看；记者曝光！
[视频]节前聚焦烟花爆竹安全居民楼内存花炮 记者举报无人监管 20130203
老夫看过记者关于肖某勒索的调查视频，可以说，“胁从犯罪”的证据极为明显——问题就在于，曾经处理方哦，算是结了案，再次处理，法理上有疑问
记者调查:重庆忠县一桩疑窦重生的受贿案(转载)
--------------------------

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/462803.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！