【java、lucene、python】互联网搜索引擎课程报告二:建立搜索引擎

一、项目要求

  1. 建立并实现文本搜索功能
  1. 对经过预处理后的500个英文和中文文档/网页建立搜索并实现搜索功能
  2. 对文档建立索引,然后通过前台界面或者已提供的界面,输入关键字,展示搜索结果
  3. 前台可通过网页形式、应用程序形式、或者利用已有的界面工具显示
  4. 实现英文搜索及中文搜索功能
  1. 比较文档之间的相似度

通过余弦距离计算任意两个文档之间的相似度,列出文档原文,并给出相似

度值。

  1. 对下载的文档,利用K-Means聚类算法进行聚类
  1. 将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)
  2. 距离计算公式,可采用余弦距离,也可用欧式距离

二、开发环境

系统:windows 10 

开发语言:JAVA,python

开发工具:IDEA,pycharm

三、项目实现

  使用开源搜索引擎Lucene对经过预处理后的500个英文和中文文档建立索引,并实现搜索功能,然后通过前台界面,输入关键字,展示搜索结果。支持英文搜索及中文搜索功能。

一、搜索引擎

1.建立索引

建立索引时,使用IK Analyzer分词器,每个文档(document)有三个域,content对应文档内容,fileName对应文档名,filePath对应文档路径。

2.搜索

由于用Luke进行搜索时不能使用IK Analyzer分词器,中文只能单字分词,搜索结果不准确。故自行编码实现搜索功能,前台界面利用JAVA的awt库进行设计。因为只实现搜索功能,前台界面设计得比较简单,居中的上方是关键词输入框,下方依次是选择检索中文还是英文文档的单选框和搜索结果文本显示框。输入关键词后,按下回车,就会显示搜索结果,第一行是搜索到的文档数。

二、比较文档之间的相似度

通过余弦距离(Cosine Distance)计算任意两个文档之间的相似度,列出文档原文,并给出相似度值。

计算文本相似度的思路:1、分词;2、列出所有的词;3、计算词频;4、向量化;5、用公式计算相似度(余弦值)。余弦值接近1,夹角趋于0,表明两个向量越相似,余弦值接近于0,夹角趋于90度,表明两个向量越不相似。

前台界面利用JAVA的awt库进行设计。分别输入两个文档的编号,回车后下方的两个文本区域会显示文档的内容。下方的单选框可以选择比较中文还是英文文档。点击下方的calculate the similarity的按钮,按钮上方的文本框会显示相似度值。

三、利用K-Means聚类算法进行聚类

利用K-Means聚类算法进行聚类将下载的500个中文/英文文档聚为20个类,并显示聚类之后所形成的三个最大的类,及每个类中代表性的文档(即,离类中心最近的五个文档)。将文档分别聚类成不同数量的类,如:5、10、25、50等,比较聚类结果的异同与变化。

K-Means聚类算法的前几个步骤与计算文本相似度的思路的相似,即对文本分词、列出所有的词、计算词频、向量化,只是这里处理的文档不再是2个文档,而是500个文档(文档已经预处理过)。

然后给定一个数k,表示聚类的数目,随机选取k个样本作为初始的聚类中心。计算每个文档与k个聚类中心的距离(这里使用的余弦距离,值越接近1表示越接近),将每个文档分配给距离它最近的聚类中心。

接着,计算每个聚类中所有向量每个坐标的平均值,计算出一个“质心”,作为新的聚类中心。

最后,进行迭代,对每个文档重新计算距离并分配到最近的聚类。通过判断每个聚类中心有无变化,决定是否停止迭代。迭代结束时,可以得到k个聚类中心的值,每类中所有文档序号及对应余弦距离。根据这些信息,经过筛选和排序,可以找到形成的三个最大的类,及每个类中代表性的文档。

 上面为部分说明,完整报告请见:

参考

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】 https://www.bilibili.com/video/BV1eJ411q7nw/?p=23&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

文档预处理:

前一个报告:

https://download.csdn.net/download/qq_61814350/89207414?spm=1001.2014.3001.5503

Lucene的api使用、环境搭建(最多看到前24个视频就可以,下载他提供的配套资料,很方便):

【黑马程序员Lucene全文检索技术,从底层到实战应用Lucene全套教程】

https://www.bilibili.com/video/BV1eJ411q7nw/?p=24&share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

java界面设计(容器、按钮、输入框、事件监听,最多看到P13):

【【狂神说Java】GUI编程入门到游戏实战】

https://www.bilibili.com/video/BV1DJ411B75F/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

余弦距离、TF-IDF:

https://blog.csdn.net/m0_37739193/article/details/119335260

https://blog.csdn.net/wxgxgp/article/details/104146034

https://blog.csdn.net/qq_63159704/article/details/132846060

kmeans理论讲解:

【k-means kmeans聚类算法 清晰解释(带算例)】

https://www.bilibili.com/video/BV1V44y1u7mJ/?share_source=copy_web&vd_source=9332b8fc5ea8d349a54c3989f6189fd3

kmeans代码实现:

https://www.cnblogs.com/zuixime0515/p/9604034.html

python、numpy:

哪里不会再查,看菜鸟教程。

java:

去除空格、标点符号

https://blog.csdn.net/chen134225/article/details/103104392

java- File类的常用方法:遍历目录里的文件

https://blog.csdn.net/u014217137/article/details/128044606

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/25206.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Databricks Data Warehouse

Warehouse features 原来的data warehouse痛点: 用例不兼容的支持模型的安全和管理不兼容不相交和重复的数据 ETL workloads Streaming Architecture Data Science and ML

matplotlib 动态显示训练过程中的数据和模型的决策边界

文章目录 Github官网文档简介动态显示训练过程中的数据和模型的决策边界安装源码 Github https://github.com/matplotlib/matplotlib 官网 https://matplotlib.org/stable/ 文档 https://matplotlib.org/stable/api/index.html 简介 matplotlib 是 Python 中最常用的绘图…

js理解异步编程和回调

什么是异步 计算机在设计上是异步的。 异步意味着事情可以独立于主程序流发生。 当你打开一个网页,网页载入的过程,你又打开了编译器,那么你在网页载入时启动了编译器的行为就是计算机的异步, 可以看出计算机时一个超大的异步…

华为防火墙 1

华为防火墙1 实验拓扑: 实验步骤: 1.完成终端基本IP信息配置 2.配置防火墙: 2.1配置IP地址 sys Enter system view, return user view with CtrlZ. [USG6000V1]undo in e Info: Saving log files… Info: Information center is disabled. […

基于小波脊线的一维时间序列信号分解方法(MATLAB R2018A)

信号分解技术是把一个复杂信号分解为若干含有时频信息的简单信号,研可通过分解后的简单信号来读取和分析复杂信号的有效特征。因此,信号分解技术对分析结果的影响是不言而喻的。 傅里叶分解是早期常用的信号分解方法,最初被用于分析热过程&a…

JavaScript基础(十二)

截取字符串 //对象名.toLowerCase();将字符串转为小写 var strLAOWANG; strstr.toLowerCase(); console.log(str); //对象名.toUpperCase();将字符串转为大写 var str1laowang str1str1.toUpperCase(); console.log(str1); 截取字符串 //方法1:对象名.substr(a,b); …

Unity世界坐标下UI始终朝向摄像机

Unity世界坐标下UI始终朝向摄像机 1、第一种方法UI会反过来 void Update(){this.transform.LookAt(Camera.main.transform.position);}2、第二种方法 Transform m_Camera;void Start(){m_Camera Camera.main.transform;}void LateUpdate(){transform.rotation Quaternion.Lo…

kafka-生产者事务-数据传递语义事务介绍事务消息发送(SpringBoot整合Kafka)

文章目录 1、kafka数据传递语义2、kafka生产者事务3、事务消息发送3.1、application.yml配置3.2、创建生产者监听器3.3、创建生产者拦截器3.4、发送消息测试3.5、使用Java代码创建主题分区副本3.6、屏蔽 kafka debug 日志 logback.xml3.7、引入spring-kafka依赖3.8、控制台日志…

关于烫烫烫和屯屯屯

微较的msvc编译器,调试模式下为了方便检测内存的非法访问,对于不同的内存做了初始化, 未初始化栈: 0xCCCCCCCC 未初始化堆: 0xCDCDCDCD 已释放的堆: 0xDDDDDDDD 0xCCCC解释为GB2312字符即是烫&#xff…

Django 鸡与蛋问题

"Django 的鸡与蛋问题"通常指的是在开始 Django 项目时,你可能会遇到的一个困境:是先设计数据库模型还是先编写视图和控制器(即视图函数)? 这个问题的实质是在于,Django 的核心部分是由数据库模…

Qt5/6使用SqlServer用户连接操作SqlServer数据库

网上下载SQLServer2022express版数据库,这里没啥可说的,随你喜欢,也可以下载Develop版本。安装完后,我们可以直接连接尝试, 不过一般来说,还是下载SQLServer管理工具来连接数据更加方便。 所以直接下载ssms, 我在用的时候,一开始只能用Windows身份登录。 所以首先,我…

入门matlab

常识 如何建一个新文件 创建新文件,点击新建,我们就可以开始写代码了 为什么要在代码开头加入clear 假如我们有2个文件,第一个文件里面给x赋值100,第二个文件为输出x 依次运行: 结果输出100,这是因为它们…

ChatGPT Prompt技术全攻略-精通篇:Prompt工程技术的高级应用

系列篇章💥 No.文章1ChatGPT Prompt技术全攻略-入门篇:AI提示工程基础2ChatGPT Prompt技术全攻略-进阶篇:深入Prompt工程技术3ChatGPT Prompt技术全攻略-高级篇:掌握高级Prompt工程技术4ChatGPT Prompt技术全攻略-应用篇&#xf…

电脑缺失msvcp110.dll文件的解决方法,总结5种靠谱的方法

在计算机使用过程中,我们可能会遇到一些错误提示,其中之一就是“找不到msvcp110.dll”。这个错误提示通常出现在运行某些软件时,那么,它究竟会造成哪些问题呢? 一,msvcp110.dll文件概述 msvcp110.dll是Mic…

推荐云盘哪个好,各有各的优势

选择合适的云盘服务是确保数据安全、便捷分享和高效协作的关键。下面将从多个维度对目前主流的云盘服务进行详细的对比和分析: 速度性能 百度网盘青春版:根据测试,其上传和下载确实不限速,但主要定位是办公人群,适用于…

STM32F103C8T6 HAL库 USART1 DMA方式接收数据

前言: 前面的两篇文章都说关于发送的,HAL库发送数据可以调用现成的函数,而接收数据,现成函数不太好用。这里为了记录了一下自己参考了网上几个大佬的代码,整理了一下USART1 DMA方式接受数据的代码,…

Elasticsearch 认证模拟题 - 17

这两道题目非常具有代表性,分别是跨集群复制和跨集群检索,需要相应的 许可 这里在虚拟机上搭建集群完成这两道题目,这里补充一下 elasticsearch 和 kibana 的配置文件 # elasticsearch.yml cluster.name: cluster2 node.name: cluster2-node…

Linux之文件操作

目录 第1关:文件的创建 任务描述 相关知识 文件的创建 编程要求 答案: 第2关:文件打开与关闭 任务描述 相关知识 文件的打开 文件的关闭 编程要求 答案: 第3关:文件读写操作 任务描述 相关知识 文件的写操作 文件的读…

【Redis学习笔记05】Jedis客户端(中)

Jedis客户端 1. 命令 1.1 String类型 1.1.1 常见命令 SET命令 语法:SET key value [EX seconds | PX milliseconds] [NX|XX] 说明:将string类型的value值设置到指定key中,如果之前该key存在,则会覆盖原先的值,原先…

前端计网面试题(二)

一、在浏览器中输入url并且按下回车之后发生了什么? 首先解析url,判断url是否合法,如果合法再判断是否完整。如果不合法,则使用用户默认的搜索引擎进行搜索。DNS域名解析获取URL对应的ip地址。(首先看本地是否有缓存&…