****************************************************************************************************************************************************************************
1、概述 【1】入门:作用、有点与缺点 【2】应用:索引、搜索、field域使用、索引库、分词器、高级搜岁实战 【3】高级:底层存储结构、词典排序算法、优化、使用的一些使用注意事项
****************************************************************************************************************************************************************************
2、Lucene的作用 【1】用户—>服务器—>Lucene API—>索引库—>数据库/文档/web网页—>再返回。
****************************************************************************************************************************************************************************
3、常用的查询算法 【1】顺序扫描法:(数据量大的时候就GG),mysql的like查询就是,文本编辑器的Ctrl+F。 【2】倒排索引:把文章提取出来—>文档(正文)—>切分词组成索引目录。查询的时候先查目录,然后再找正文。切分词是个关键。 为什么倒排索引快?去掉重复的词,去掉停用词(的、地、得、a、an、the)。查字词典肯定比文章少。字典原理所以快。 优点:准确率高、速度快。但是空间占用量肯定会大,时间与空间不能兼得。它是用空间换时间。额外占用磁盘空间来存储目录。
****************************************************************************************************************************************************************************
5、全文检索技术使用场景 【1】站内搜索(百度贴吧、京东、淘宝)。垂直领域的搜索(818工作网)。专业搜索引擎(谷歌、百度)
****************************************************************************************************************************************************************************
6、什么是Lucene 【1】文章—>词—>索引(目录) 【2】全文检索:查先查目录,再查文本,这就是全文检索。 【3】Doug Cutting是Lucene、Nutch、Hadoop等项目的发起人。捐献给了Apache基金会。 【4】官网 https://lucene.apache.org
****************************************************************************************************************************************************************************
7、索引和搜索流程概述 【1】原始文档—>创建索引(获得文档-构建文档对象-分词-创建索引)—>索引库(肯定是提前创建)。 【2】用户查询—>创建查询—>执行查询—>渲染结果—>返回结果。
****************************************************************************************************************************************************************************
8、Lucene索引流程详细 【1】Document文档(唯一ID)。Field域(key value的形式)。id:1 name:华为手机64G brandName:华为。id:2 name:华为手机128G brandName:华为 【2】会根据text提取分词,分析后得到的词:....................。关键词 1 在文档1,关键词2 在文档2 ,关键词手机 在文档1&文档2。这种方式存储。 【3】然后先找到关键词在哪个文档,然后再去对应文档查,有道理呀。卧槽
****************************************************************************************************************************************************************************
9、Lucene搜索流程详细 【1】华为手机,看是华为 AND 手机,还是华为 OR 手机。来决定查询结果
****************************************************************************************************************************************************************************
10、Lucene入门 【1】jar包下载配置<!--Lucene****************************************************************************************************************************************************--><!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-highlighter --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-highlighter</artifactId><version>7.7.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-queryparser --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-queryparser</artifactId><version>7.7.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-smartcn --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-smartcn</artifactId><version>7.7.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-analyzers-common --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-analyzers-common</artifactId><version>7.7.2</version></dependency><!-- https://mvnrepository.com/artifact/org.apache.lucene/lucene-core --><dependency><groupId>org.apache.lucene</groupId><artifactId>lucene-core</artifactId><version>7.7.2</version></dependency>
****************************************************************************************************************************************************************************
13、创建索引 【1】具体创建代码public static void createIndex() throws Exception {// 1.采集数据Product product_1 = new Product(1, "华为手机", 3000, 10, "华为.jpg", "华为", "300*300", 5);Product product_2 = new Product(2, "苹果手机", 8000, 30, "苹果.jpg", "苹果", "500*500", 15);List<Product> productList = new ArrayList<>();productList.add(product_1);productList.add(product_2);List<Document> documentList = new ArrayList<>(); // 文档集合// 2.创建文档对象for (Product temp : productList) {// 创建文档Document document = new Document();// 创建域对象,并且放到文档对象中document.add(new TextField("id", temp.getId() + "", Field.Store.YES));document.add(new TextField("name", temp.getName(), Field.Store.YES));document.add(new TextField("price", temp.getPrice() + "", Field.Store.YES));document.add(new TextField("num", temp.getNum() + "", Field.Store.YES));document.add(new TextField("image", temp.getImage() + "", Field.Store.YES));document.add(new TextField("brandName", temp.getBrandName() + "", Field.Store.YES));document.add(new TextField("spec", temp.getSpec() + "", Field.Store.YES));// 放到文档集合documentList.add(document);}// 3.创建分词器Analyzer analyzer = new StandardAnalyzer();// 4.创建index目录对象,目录对象表示索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建IndexWriterConfig对象, 这个对象指定切分词使用的分词器IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);// 6.创建IndexWriter输出流对象,指定输出位置和使用的config初始化对象。IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);// 7.写入文档到索引库for (Document temp : documentList) {indexWriter.addDocument(temp);}// 8.释放资源indexWriter.close();}
****************************************************************************************************************************************************************************
14、查看索引详情工具 【1】https://github.com/DmitryKey/luke/tree/luke-swing-8.0.0/src/main/java/org/apache/lucene/luke/app/desktop直接下载运行 【2】Luke工具的使用,很重要的!!!!!!!!!!!!
****************************************************************************************************************************************************************************
15、搜索索引 【1】实际代码 // 二、搜索public static void searchIndex() throws Exception {// 1.创建分词器(对搜索的内容进行分词使用)。如华为手机可能拆分为 华为 手机Analyzer analyzer = new StandardAnalyzer();// 注意!!!:分词器要和创建索引的时候使用的分词器一模一样(不然搜索的时候就有问题)// 2.创建查询对象 // 第一个arg默认查询域 //QueryParser queryParser = new QueryParser("name", analyzer);// 3.设置搜索关键词Query query = queryParser.parse("华为"); // queryParser.parse("id:华为手机") 指定从id查,不指定就从默认的name域查// 4.设置Directory目录对象,指定索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建输入流对象IndexReader indexReader = DirectoryReader.open(directory);// 6.创建搜索对象IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 7.搜索并返回结果TopDocs topDocs_10 = indexSearcher.search(query, 10);// 8.获取结果集ScoreDoc[] scoreDocArray = topDocs_10.scoreDocs;// 9.遍历结果集System.out.println("共查询到 " + scoreDocArray.length + " 条数据");if (scoreDocArray != null) {for (ScoreDoc temp : scoreDocArray) {// 获取查询到的文档唯一ID,这个ID是Lucene在创建文档的时候自动分配的。int docId = temp.doc;// 通过文档ID读取文档Document document = indexSearcher.doc(docId);System.out.println("******************************************************************************************************");System.out.println("id: " + document.get("id"));System.out.println("name: " + document.get("name"));System.out.println("price: " + document.get("price"));}}// 10. 关闭流indexReader.close();}
****************************************************************************************************************************************************************************
16、Field域的使用 【1】Field类:索引的目的是为了查询。比如商品ID、订单号、身份证号这个不用分词。凡是用来展示的都需要存储。 【2】所以每个属性都要进行是否分词、是否索引、是否存储的改造。// 2.创建文档对象for (Product temp : productList) {// 创建文档Document document = new Document();// 创建域对象,并且放到文档对象中document.add(new TextField("id", temp.getId() + "", Field.Store.YES));// 否 是 是(是为了查数据库)document.add(new TextField("name", temp.getName(), Field.Store.YES));// 是 是 是(因为页面需要展示商品名称)document.add(new IntPoint("price", temp.getPrice()));// 是(底层的逻辑) 是(根据范围查询) 是document.add(new StoredField("price", temp.getPrice()));// 与上面组合来完成存储document.add(new TextField("num", temp.getNum() + "", Field.Store.YES));document.add(new TextField("image", temp.getImage() + "", Field.Store.YES));document.add(new TextField("brandName", temp.getBrandName() + "", Field.Store.YES)); // 否 是 是document.add(new TextField("spec", temp.getSpec() + "", Field.Store.YES));// 放到文档集合documentList.add(document);}
****************************************************************************************************************************************************************************
17、索引库维护 【1】如果数据库数据变了,索引库里怎么同步? package com.day;import com.day.pojo.Product; import org.apache.lucene.analysis.Analyzer; import org.apache.lucene.analysis.standard.StandardAnalyzer; import org.apache.lucene.document.*; import org.apache.lucene.index.*; import org.apache.lucene.queryparser.classic.ParseException; import org.apache.lucene.queryparser.classic.QueryParser; import org.apache.lucene.search.IndexSearcher; import org.apache.lucene.search.Query; import org.apache.lucene.search.ScoreDoc; import org.apache.lucene.search.TopDocs; import org.apache.lucene.store.Directory; import org.apache.lucene.store.FSDirectory;import java.nio.file.Paths; import java.util.ArrayList; import java.util.List;// 主函数入口 public class DayApplication {public static void main(String[] args) throws Exception {//createIndex();//searchIndex();//updateIndex();deleteIndex();}// 一、创建索引public static void createIndex() throws Exception {// 1.采集数据Product product_1 = new Product(1, "华为手机", 3000, 10, "华为.jpg", "华为", "300*300", 5);Product product_2 = new Product(2, "苹果手机", 8000, 30, "苹果.jpg", "苹果", "500*500", 15);List<Product> productList = new ArrayList<>();productList.add(product_1);productList.add(product_2);List<Document> documentList = new ArrayList<>(); // 文档集合// 2.创建文档对象for (Product temp : productList) {// 创建文档Document document = new Document();// 创建域对象,并且放到文档对象中document.add(new TextField("id", temp.getId() + "", Field.Store.YES));// 否 是 是(是为了查数据库)document.add(new TextField("name", temp.getName(), Field.Store.YES));// 是 是 是(因为页面需要展示商品名称)document.add(new IntPoint("price", temp.getPrice()));// 是(底层的逻辑) 是(根据范围查询) 是document.add(new StoredField("price", temp.getPrice()));// 与上面组合来完成存储document.add(new TextField("num", temp.getNum() + "", Field.Store.YES));document.add(new TextField("image", temp.getImage() + "", Field.Store.YES));document.add(new StringField("brandName", temp.getBrandName() + "", Field.Store.YES)); // 否 是 是document.add(new TextField("spec", temp.getSpec() + "", Field.Store.YES));// 放到文档集合documentList.add(document);}// 3.创建分词器Analyzer analyzer = new StandardAnalyzer();// 4.创建index目录对象,目录对象表示索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建IndexWriterConfig对象, 这个对象指定切分词使用的分词器IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);// 6.创建IndexWriter输出流对象,指定输出位置和使用的config初始化对象。IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);// 7.写入文档到索引库for (Document temp : documentList) {indexWriter.addDocument(temp);}// 8.释放资源indexWriter.close();}// 二、搜索public static void searchIndex() throws Exception {// 1.创建分词器(对搜索的内容进行分词使用)。如华为手机可能拆分为 华为 手机Analyzer analyzer = new StandardAnalyzer();// 注意!!!:分词器要和创建索引的时候使用的分词器一模一样(不然搜索的时候就有问题)// 2.创建查询对象 // 第一个arg默认查询域 //QueryParser queryParser = new QueryParser("name", analyzer);// 3.设置搜索关键词Query query = queryParser.parse("华为"); // queryParser.parse("id:华为手机") 指定从id查,不指定就从默认的name域查// 4.设置Directory目录对象,指定索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建输入流对象IndexReader indexReader = DirectoryReader.open(directory);// 6.创建搜索对象IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 7.搜索并返回结果TopDocs topDocs_10 = indexSearcher.search(query, 10);// 8.获取结果集ScoreDoc[] scoreDocArray = topDocs_10.scoreDocs;// 9.遍历结果集System.out.println("共查询到 " + scoreDocArray.length + " 条数据");if (scoreDocArray != null) {for (ScoreDoc temp : scoreDocArray) {// 获取查询到的文档唯一ID,这个ID是Lucene在创建文档的时候自动分配的。int docId = temp.doc;// 通过文档ID读取文档Document document = indexSearcher.doc(docId);System.out.println("******************************************************************************************************");System.out.println("id: " + document.get("id"));System.out.println("name: " + document.get("name"));System.out.println("price: " + document.get("price"));}}// 10. 关闭流indexReader.close();}// 三、修改索引public static void updateIndex() throws Exception {// 1.需要变更成的内容Document document = new Document();// 创建域对象,并且放到文档对象中document.add(new TextField("id", "110161", Field.Store.YES));// 否 是 是(是为了查数据库)document.add(new TextField("name", "魅族手机", Field.Store.YES));// 是 是 是(因为页面需要展示商品名称)document.add(new IntPoint("price", 1000));// 是(底层的逻辑) 是(根据范围查询) 是document.add(new StoredField("price", 1000));// 与上面组合来完成存储// 3.创建分词器Analyzer analyzer = new StandardAnalyzer();// 4.创建index目录对象,目录对象表示索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建IndexWriterConfig对象, 这个对象指定切分词使用的分词器IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);// 6.创建IndexWriter输出流对象,指定输出位置和使用的config初始化对象。IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);// 7.修改文档indexWriter.updateDocument(new Term("id", "1"), document);// 8.释放资源indexWriter.close();}// 四、删除索引,慎用(根据条件删除)public static void deleteIndex() throws Exception {// 3.创建分词器Analyzer analyzer = new StandardAnalyzer();// 4.创建index目录对象,目录对象表示索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建IndexWriterConfig对象, 这个对象指定切分词使用的分词器IndexWriterConfig indexWriterConfig = new IndexWriterConfig(analyzer);// 6.创建IndexWriter输出流对象,指定输出位置和使用的config初始化对象。IndexWriter indexWriter = new IndexWriter(directory, indexWriterConfig);// 7.修改文档indexWriter.deleteDocuments(new Term("id", "110161"));//indexWriter.deleteAll(); // 删除所有// 8.释放资源indexWriter.close();} }
****************************************************************************************************************************************************************************
18、分词器 【1】搜索内容会用分词器再次切分。 【2】去掉停用词(的、是、a、an、the等)。大写转小写。 【3】分词器分为自带的和三方的分词器。 【4】比如:安徽合肥。默认分词器会分为 安 徽 合 肥。注意:分词时用的Analyzer,和搜索使用的一定要是同样的。
****************************************************************************************************************************************************************************
19、原生分词器 【1】StandardAnalyzer 对英文效果好。但是对中文就不行了,是按照字分词的。
****************************************************************************************************************************************************************************
20、空格分词器、SimpleAnalyzer 【1】根据空格分,这种对提前定义好支持的很好。仅仅去掉了空格。 【2】SimpleAnalyzer同样不支持中文分词。
****************************************************************************************************************************************************************************
23、第三方中文分词器 【1】使用中文分词器IKAnalyzer。扩展词典 指定的专有名字。停用词典 凡事出现在停用的都会被过滤掉。<!--三方分词器****************************************************************************************************************************************************--><!-- https://mvnrepository.com/artifact/com.github.magese/ik-analyzer --><dependency><groupId>com.github.magese</groupId><artifactId>ik-analyzer</artifactId><version>8.1.0</version></dependency>
IKAnalyzer.rar
****************************************************************************************************************************************************************************
24、高级查询(文本查询) 【1】文本搜索、范围搜索、组合搜索。 // 三、数据范围public static void rangeIndex() throws Exception {// 1.创建分词器(对搜索的内容进行分词使用)。如华为手机可能拆分为 华为 手机Analyzer analyzer = new IKAnalyzer();// 注意!!!:分词器要和创建索引的时候使用的分词器一模一样(不然搜索的时候就有问题)// 2.创建查询对象 // 第一个arg默认查询域 //Query query = IntPoint.newRangeQuery("price", 2500, 7999);// 4.设置Directory目录对象,指定索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建输入流对象IndexReader indexReader = DirectoryReader.open(directory);// 6.创建搜索对象IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 7.搜索并返回结果TopDocs topDocs_10 = indexSearcher.search(query, 10);// 8.获取结果集ScoreDoc[] scoreDocArray = topDocs_10.scoreDocs;// 9.遍历结果集System.out.println("共查询到 " + scoreDocArray.length + " 条数据");if (scoreDocArray != null) {for (ScoreDoc temp : scoreDocArray) {// 获取查询到的文档唯一ID,这个ID是Lucene在创建文档的时候自动分配的。int docId = temp.doc;// 通过文档ID读取文档Document document = indexSearcher.doc(docId);System.out.println("******************************************************************************************************");System.out.println("id: " + document.get("id"));System.out.println("name: " + document.get("name"));System.out.println("price: " + document.get("price"));}}// 10. 关闭流indexReader.close();} 【2】组合查询// 四、组合查询public static void togetherIndex() throws Exception {// 1.创建分词器(对搜索的内容进行分词使用)。如华为手机可能拆分为 华为 手机Analyzer analyzer = new IKAnalyzer();// 注意!!!:分词器要和创建索引的时候使用的分词器一模一样(不然搜索的时候就有问题)// 2.创建查询对象 // 第一个arg默认查询域 //Query query_1 = IntPoint.newRangeQuery("price", 2500, 17999);QueryParser queryParser = new QueryParser("name", analyzer);// 3.设置搜索关键词 queryParser.parse("华为 AND 手机")Query query_2 = queryParser.parse("苹果 OR 手机"); // queryParser.parse("id:华为手机") 指定从id查,不指定就从默认的name域查BooleanQuery.Builder builderQuery = new BooleanQuery.Builder();builderQuery.add(query_1, BooleanClause.Occur.MUST); // MUST = and SHOULD= orbuilderQuery.add(query_2, BooleanClause.Occur.MUST);// 4.设置Directory目录对象,指定索引库的位置Directory directory = FSDirectory.open(Paths.get("src/main/resources/index"));// 5.创建输入流对象IndexReader indexReader = DirectoryReader.open(directory);// 6.创建搜索对象IndexSearcher indexSearcher = new IndexSearcher(indexReader);// 7.搜索并返回结果TopDocs topDocs_10 = indexSearcher.search(builderQuery.build(), 10);// 8.获取结果集ScoreDoc[] scoreDocArray = topDocs_10.scoreDocs;// 9.遍历结果集System.out.println("共查询到 " + scoreDocArray.length + " 条数据");if (scoreDocArray != null) {for (ScoreDoc temp : scoreDocArray) {// 获取查询到的文档唯一ID,这个ID是Lucene在创建文档的时候自动分配的。int docId = temp.doc;// 通过文档ID读取文档Document document = indexSearcher.doc(docId);System.out.println("******************************************************************************************************");System.out.println("id: " + document.get("id"));System.out.println("name: " + document.get("name"));System.out.println("price: " + document.get("price"));}}// 10. 关闭流indexReader.close();}
****************************************************************************************************************************************************************************
26、实际案例 【1】商城页面。需求:商品名称,价格筛选等 【2】关闭springboot缓存spring.thymeleaf.cache=false 【3】不得不说thymeleaf真没有VUE好用,卧槽。
****************************************************************************************************************************************************************************
36、相关度排序 【1】词的权重。Term Frequency 出现的次数、 Document Frequency 出现的文档个数