Java Apache Jaccard文本相似度匹配初体验

文章目录

  • 前言
  • 一、文本相似度算法的选择
  • 二、常见的文本相似度算法介绍
  • 三、使用示例
    • 1、引入jar包
    • 2、方法示例
    • 3、Jaccard源码剖析
    • 4、Jaccard源码解释
  • 写在最后


前言

产品今天提了个需求,大概是这样的,来,请看大屏幕。。。额。。。搞错了,重来!来,请看需求原型
需求原型描述
需求原型清晰明了,就不做过多解释了


一、文本相似度算法的选择

文本相似度其实很好理解,按照字面意思,就是两个字符串比较,根据一定的规则来返回两个字符串的相似度。
按照需求来说的话,我需要的只是文本的匹配,对于准确性的要求可能没有那么高,所以,这里选择Apache Jaccard的算法就能满足需求

二、常见的文本相似度算法介绍

1.Levenshtein距离: Levenshtein距离算法在计算字符串相似度时需要考虑所有的插入、删除和替换操作,因此对于长字符串来说,时间复杂度较高。然而,这个算法比较准确,能够捕捉到字符串间的细微差异。(后面只会说一下调用示例,不会过重说明)

2.Jaccard相似度:Jaccard相似度算法计算集合的交集和并集的比值,是一种基本的相似度度量。它对字符串长度不敏感,计算速度相对较快。但是,它对于字符顺序不敏感,并且只考虑字符出现与否,而不考虑出现的频率。 (这里着重说明一下)

3.Cosine相似度: Cosine相似度算法将字符串视为向量,并计算它们的夹角余弦值。这个算法在计算文本相似度时,考虑了字符的频率和顺序。它也适用于处理较长的字符串,但在比较两个字符串之间的相似度时,需要先将其向量化,因此相对复杂一些。(其实Cosine相似度我也看了下源码,也度娘了一下其中的原理,由于个人数学不好,看到一大串的数学公式,感觉头都大了,就没深究^ o ^。感兴趣的同学可以自行度娘,并深入研究一下 )

三、使用示例

1、引入jar包

Levenshtein、Jaccard和Cosine都是 Apache公司的,所以引入一个就可以了

	<dependency><groupId>org.apache.commons</groupId><artifactId>commons-text</artifactId><version>1.10.0</version></dependency>

2、方法示例

Jaccard相似度: 用于计算两个集合之间的相似度,可以将字符串视为字符的集合,计算它们的交集和并集的比值。Jaccard相似度的取值范围是01,值越接近1表示相似度越高。
Jaccard示例如下:

import org.apache.commons.text.similarity.JaccardSimilarity;// Jaccard文本相似度
public static void main(String[] args) {String str1 = "收到钢化膜其中一张破裂+收到钢化膜其中一张破裂要求补发一张+3191";String str2 = "收到后钢化膜有一张碎了角+收到后钢化膜有一张碎了角,请补发+3191";// Jaccard匹配文本相似度JaccardSimilarity jacc = new JaccardSimilarity();Double jaccardSimilarity = jacc.apply(str1, str2);System.out.println("Jaccard===>文本相似度:" + jaccardSimilarity);
}

Jaccard计算结果:
Jaccard计算结果

Levenshtein距离示例如下:
Levenshtein距离:也称为编辑距离,用于计算两个字符串之间的最小编辑操作次数(插入、删除、替换)来转换一个字符串为另一个字符串。编辑距离越小,表示两个字符串越相似。

import org.apache.commons.text.similarity.JaccardSimilarity;// Jaccard文本相似度
public static void main(String[] args) {String str1 = "收到钢化膜其中一张破裂+收到钢化膜其中一张破裂要求补发一张+3191";String str2 = "收到后钢化膜有一张碎了角+收到后钢化膜有一张碎了角,请补发+3191";int distance = LevenshteinDistance.getDefaultInstance().apply(str1, str2);double levenshteinSimilarity= 1 - (double) distance / Math.max(str1.length(), str2.length());System.out.println("Levenshtein===>文本相似度:" + levenshteinSimilarity);
}

Levenshtein计算结果:
Levenshtein距离计算结果


3、Jaccard源码剖析

import org.apache.commons.text.similarity.JaccardSimilarity;public static void main(String[] args) {String str1 = "收到钢化膜其中一张破裂+收到钢化膜其中一张破裂要求补发一张+3191";String str2 = "收到后钢化膜有一张碎了角+收到后钢化膜有一张碎了角,请补发+3191";int leftLength = str1.length();int rightLength = str2.length();if (leftLength == 0 && rightLength == 0) {System.out.println("文本相似度:" + 1.0);} else if (leftLength != 0 && rightLength != 0) {Set<Character> leftSet = new HashSet();for (int i = 0; i < leftLength; ++i) {leftSet.add(str1.charAt(i));}System.out.println("leftSet内容:" + JSONObject.toJSONString(leftSet));System.out.println("leftSet的Size:" + leftSet.size());Set<Character> rightSet = new HashSet();for (int i = 0; i < rightLength; ++i) {rightSet.add(str2.charAt(i));}System.out.println("rightSet内容:" + JSONObject.toJSONString(rightSet));System.out.println("rightSet的Size:" + rightSet.size());Set<Character> unionSet = new HashSet(leftSet);unionSet.addAll(rightSet);System.out.println("unionSet内容:" + JSONObject.toJSONString(unionSet));System.out.println("unionSet的Size:" + unionSet.size());int intersectionSize = leftSet.size() + rightSet.size() - unionSet.size();System.out.println("intersectionSize的Size:" + intersectionSize);double calRes = 1.0 * (double) intersectionSize / (double) unionSet.size();System.out.println("文本相似度:" + calRes);} else {System.out.println("文本相似度:" + 0.0);}
}

4、Jaccard源码解释

该函数用于计算两个字符串的文本相似度。使用字符集来表示字符串,并计算两个字符串的交集和并集,然后根据交集和并集的大小计算相似度。具体步骤如下:

  1. 初始化两个字符串str1和str2。
  2. 计算两个字符串的长度,分别保存在leftLength和rightLength变量中。
  3. 如果两个字符串长度都为0,则输出相似度为1.0。
  4. 如果两个字符串长度都不为0,则进行以下操作:
    a. 创建一个字符集leftSet,将str1中的每个字符添加到leftSet中。
    b. 输出leftSet的内容和大小。
    c. 创建一个字符集rightSet,将str2中的每个字符添加到rightSet中。
    d. 输出rightSet的内容和大小。
    e. 创建一个字符集unionSet,并将leftSet中的元素复制到unionSet中。
    f. 将rightSet中的元素添加到unionSet中。
    g. 输出unionSet的内容和大小。
    h. 计算交集的大小:intersectionSize = leftSet的大小 + rightSet的大小 - unionSet的大小。
    i. 计算相似度:calRes = (double) intersectionSize / (double) unionSet的大小。
    j. 输出相似度。
  5. 如果两个字符串长度不一致,则输出相似度为0.0。

写在最后

最佳算法的选择取应取决于实际应用中具体情况和要求,同时需要考虑多个方面,如算法的复杂度、字符串长度、算法的适用性、是否需要分词等等。
如果仅仅是需要计算几个短字符串之间的相似度,Jaccard相似度可能会是一个好的选择。
如果是需要捕捉字符串细微的差异并进行较高精度的匹配,Levenshtein距离可能会更合适。
如果需要处理的是文本数据Cosine相似度可能是更好的选择。
此外,如果需要对于大规模的字符串匹配需求(如搜索引擎),更复杂的算法(如基于索引的搜索算法)可能会有更适合的算法。

原创不易,望一键三连 (^ _ ^)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/19475.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Spring Boot 2 入门基础

学习要求 ● 熟悉Spring基础 ● 熟悉Maven使用 环境要求 ● Java8及以上 ● Maven 3.3及以上&#xff1a;https://docs.spring.io/spring-boot/docs/current/reference/html/getting-started.html#getting-started-system-requirements 学习资料 ● 文档地址&#xff1a; htt…

前端从零到一开发vscode插件并发布到插件市场

前端从零到一开发vscode插件并发布到插件市场 背景目标成果展示一条龙实现过程安装插件脚手架和工具创建项目运行调试打包第一次打包前的必要操作 发布第一次发布前账号准备注册Azure DevOps发布账号-获取token注册vscode开发者账号终端登录vsce 发布方式2-手动上传插件 进阶开…

深入分析 Android Service (三)

文章目录 深入分析 Android Service (三)1. Service 与 Activity 之间的通信2. 详细示例&#xff1a;通过绑定服务进行通信2.1 创建一个绑定服务2.2 绑定和通信 3. 优化建议4. 使用场景5. 总结 深入分析 Android Service (三) 1. Service 与 Activity 之间的通信 在 Android …

115道MySQL面试题(含答案),从简单到深入!

1. 什么是数据库事务&#xff1f; 数据库事务是一个作为单个逻辑工作单元执行的一系列操作。事务具有ACID属性&#xff0c;即原子性&#xff08;Atomicity&#xff09;、一致性&#xff08;Consistency&#xff09;、隔离性&#xff08;Isolation&#xff09;和持久性&#xf…

手机站怎么推广

随着手机的普及和移动互联网的快速发展&#xff0c;越来越多的人开始使用手机进行在线购物、社交娱乐、阅读资讯等&#xff0c;同时也催生了越来越多的手机站的出现。但是&#xff0c;在海量的手机站中&#xff0c;要让自己的手机站脱颖而出&#xff0c;吸引更多用户访问和使用…

CSS 【实战】 “四合院”布局

效果预览 页面要求&#xff1a; 上下固定高度左右固定宽度中间区域自适应宽高整个页面内容撑满全屏&#xff0c;没有滚动条 技术要点 使用 html5 语义化标签 header 网页内的标题区域nav 导航区域aside 侧边栏footer 页脚区域section 内容分区article 文章区域 清除浏览器默…

微信小程序区分运行环境

wx.getAccountInfoSync() 是微信小程序的一个 API&#xff0c;它可以同步获取当前账号信息。返回对象中包含小程序 AppID、插件的 AppID、小程序/插件版本等信息。 返回的对象结构如下&#xff1a; 小程序运行环境&#xff0c;可选值有&#xff1a;develop&#xff08;开发版&…

2024 cicsn gostack

文章目录 思路报错报错原理具体场景分析示例说明 exp 思路 明显栈溢出&#xff0c;二分法试试&#xff0c;尝试得到偏移值&#xff0c;然后构造rop链&#xff0c;但偏移的填充物如果不是零字节会出现如下的报错 报错 &#xff0c;“cap out of range”&#xff08;容量超出范…

labelme标注格式的数据集转COCO格式脚本

1. MyEncoder 类 - 这是一个自定义的 JSON 编码器类,用于处理 NumPy 数据类型。 - 当将 NumPy 数组或其他 NumPy 数据类型转换为 JSON 格式时,默认的 JSON 编码器无法正确处理。这个自定义的编码器可以解决这个问题。 2. labelme2coco 类 - 这是执行从 Labelme JSON …

主备切换大揭秘:保证系统永不停机的秘密

Hello,大家好!我是小米,一个积极活泼、热爱分享技术的小伙伴。今天我们来聊聊一个很重要的主题:分布式分区容错性中的主备切换。无论你是一个经验丰富的开发者,还是刚刚入门的小白,这篇文章都将为你揭开分布式系统的神秘面纱,带你深入了解其中的关键技术。让我们开始吧!…

scripts/Makefile.host 分析

文章目录 1. 目标 $(obj)/fixdep1.1 cmd_host-csingle函数分析&#xff1a; 1 # SPDX-License-Identifier: GPL-2.0 2 # 3 # Building binaries on the host system 4 # Binaries are used during the compilation of the kernel, for example 5 # to preprocess a …

【赠书第26期】AI绘画教程:Midjourney使用方法与技巧从入门到精通

文章目录 前言 1 Midjourney入门指南 1.1 注册与登录 1.2 界面熟悉 1.3 基础操作 2 Midjourney进阶技巧 2.1 描述词优化 2.2 参数调整 2.3 迭代生成 3 Midjourney高级应用 3.1 创意启发 3.2 团队协作 3.3 商业应用 4 总结与展望 5 推荐图书 6 粉丝福利 前言 在…

JS易错点

JavaScript 中的常见易错点包括语法错误、逻辑错误和一些常见的陷阱。以下是一些常见的错误和避免这些错误的建议&#xff1a; 变量声明错误 使用 var 声明变量可能导致变量提升和作用域问题&#xff0c;建议使用 let 和 const。错误示例&#xff1a;var x 10; if (true) {var…

Hibernate的优缺点

Hibernate的优缺点可以归纳如下&#xff1a; 优点&#xff1a; 对象关系映射&#xff08;ORM&#xff09;&#xff1a; Hibernate提供了强大的对象关系映射功能&#xff0c;允许开发人员以面向对象的方式操作数据库&#xff0c;从而简化了数据库操作&#xff0c;提高了开发效…

污水净化之旅:可视化技术揭秘城市“血液”的循环奥秘

在繁华的都市背后&#xff0c;有一个默默守护着我们的“肾脏”——污水处理厂。它悄无声息地处理着每天产生的污水&#xff0c;确保我们的生活环境洁净美好。但你知道这个“肾脏”是如何工作的吗&#xff1f;今天&#xff0c;就让我们一起走进污水处理的神秘世界&#xff0c;通…

Leetcode:寻找两个正序数组的中位数

题目链接&#xff1a;4. 寻找两个正序数组的中位数 - 力扣&#xff08;LeetCode&#xff09; 题目分析 1、当只有一个有序数组时&#xff0c;该数组的中位数会将该数组分为两份&#xff1a;左子数组 和 右子数组 2、当有两个有序数组时&#xff0c; 我们仍然可以通过一条分隔…

上岸极不保护一志愿院校经验。

这个系列会邀请上岸学长学姐进行经验分享~ 今天分享经验的同学上岸了哈尔滨工程大学。并不是对这所院校有什么歧视&#xff0c;只是按照往年择校数据来看&#xff0c;确实不太保护一志愿。大家自行斟酌&#xff0c;有利有弊。 经验分享 学长23年上岸哈尔滨工程大学水声工程学…

Sealos CLI快速部署部署K8s集群

1. Kubernetes基础环境部署 kubernetes有多种部署方式&#xff0c;目前主流的方式有kubeadm、minikube、二进制包 minikube&#xff1a;一个用于快速搭建单节点kubernetes的工具 kubeadm&#xff1a;一个用于快速搭建kubernetes集群的工具 二进制包 &#xff1a;从官网下载每…

社区供稿丨GPT-4o 对实时互动与 RTC 的影响

以下文章来源于共识粉碎机 &#xff0c;作者AI芋圆子 前面的话&#xff1a; GPT-4o 发布当周&#xff0c;我们的社区伙伴「共识粉碎机」就主办了一场主题为「GPT-4o 对实时互动与 RTC 的影响」讨论会。涉及的话题包括&#xff1a; GPT-4o 如何降低延迟&#xff08;VAD 模块可…

k8s集群搭建

k8s集群搭建 前期准备 1.关闭selinux 永久关闭selinux sed -i s/enforcing/disabled/g /etc/selinux/config更改后需重启系统 reboot2.关闭防火墙 systemctl stop firewalld && systemctl disable firewalld3.关闭swap内存分区 永久关闭swap分区 echo vm.swapp…