比较两个字符串的相似度算法

平时的编码中,我们经常需要判断两个文本的相似性,不管是用来做文本纠错或者去重等等,那么我们应该以什么维度来判断相似性呢?这些算法又怎么实现呢?这篇文章对常见的计算方式做一个记录。Levenshtein 距离,又称编辑距离,指的是两个字符串之间,由一个转换成另一个所需的最少编辑操作次数。许可的编辑操作包括将一个字符替换成另一个字符,插入一个字符,删除一个字符。编辑距离的算法是首先由俄国科学家Levenshtein提出的,故又叫Levenshtein Distance。我们在做数据系统的时候,经常会用到模糊搜索,但是,数据库提供的模糊搜索并不具备按照相关度进行排序的功能。现在提供一个比较两个字符串相似度的方法。通过计算出两个字符串的相似度,就可以通过Linq在内存中对数据进行排序和筛选,选出和目标字符串最相似的一个结果。本次所用到的相似度计算公式是 相似度=Kqq/(Kqq+Krr+Kss) (Kq > 0 , Kr>=0,Ka>=0) 其中,q是字符串1和字符串2中都存在的单词的总数,s是字符串1中存在,字符串2中不存在的单词总数,r是字符串2中存在,字符串1中不存在的单词总数. Kq,Kr和ka分别是q,r,s的权重,根据实际的计算情况,我们设Kq=2,Kr=Ks=1. 根据这个相似度计算公式,得出以下程序代码:


/// <summary>/// 获取两个字符串的相似度
/// </summary>/// <param name=”sourceString”>第一个字符串</param>/// <param name=”str”>第二个字符串</param>/// <returns></returns>public static decimal GetSimilarityWith(this string sourceString, string str){decimal Kq = 2;decimal Kr = 1;decimal Ks = 1;char[] ss = sourceString.ToCharArray();char[] st = str.ToCharArray();//获取交集数量
int q = ss.Intersect(st).Count();int s = ss.Length – q;int r = st.Length – q;return Kq * q / (Kq * q + Kr * r + Ks * s);}

这就是计算字符串相似度的方法,但是实际应用时,还需要考虑到同义词或近义词的情况发生, 如“爱造人小说阅读的更新最快”和“爱造人小说阅读地更新最快” 。两个字符串在一定意义上说其实是相同的,如果使用上述方法计算就会出现不准确的情况。所以在实际应用的时候,我们需要替换同义词或近义词,计算替换后的相似度。如果是近义词,需要综合替换近义词前和近义词后的计算结果,得出两个字符串的实际相似度。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/300386.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java 面相,java学习17-面相对象(多态)

多态——父类或者接口的引用指向自己的子类对象。优点&#xff1a;提高代码的扩展性弊端&#xff1a;前期建立父类的引用&#xff0c;虽然可以接受后期所有该类的子类的对象。但是只能使用父类中的功能&#xff0c;不能使用子类特有的功能&#xff0c;因为前期的程序无法知道后…

智能优化算法应用:基于原子轨道搜索算法3D无线传感器网络(WSN)覆盖优化 - 附代码

智能优化算法应用&#xff1a;基于原子轨道搜索算法3D无线传感器网络(WSN)覆盖优化 - 附代码 文章目录 智能优化算法应用&#xff1a;基于原子轨道搜索算法3D无线传感器网络(WSN)覆盖优化 - 附代码1.无线传感网络节点模型2.覆盖数学模型及分析3.原子轨道搜索算法4.实验参数设定…

dotnet中的counters说明(三)

本篇分别说明一下System.Net下的Http计数器&#xff0c;NameResolution计数器&#xff0c;Security计数器和Sockets计数器。同时&#xff0c;下面指标各项()里的项目是--counters 参数[]里的项&#xff0c;用逗号分隔多项指标。System.Net.Http计数器以下计数器由 HTTP 堆栈发布…

c#开发-基础知识及有用技巧(一)

1、时间长度的计算 TimeSpan类。例如&#xff1a;TimeSpan span dateTime1 - dateTime2 方便啊2、从类&#xff08;Class)返回一个System.Type类型&#xff0c;用typeof关键字3、从一个对象实例(Object)返回一个System.Type类型&#xff0c;用GetType方法4、判断是否处于设计…

redis下载+php,php+redis实现消息队列

入队列$redis new Redis();$redis->connect(127.0.0.1,6379);$password 123456;$redis->auth($password);$arr array(h,e,l,l,o,w,o,r,l,d);foreach($arr as $k>$v){$redis->rpush("mylist",$v);}出队列$redis new Redis();$redis->connect(127.0…

为DataList和GridView内容项添加序号

DataList就在需要的地方加入这么一个Label就可以了,主要的地方就是那个Container.ItemIndex1,1是因为DataList的编号是从0开始的<asp:Label ID"lblQNum"runat"server"Text<%# Container.ItemIndex1 %>Font-Bold"True"></asp:Labe…

天呐!你知道MSBuild都干了些什么

一个典型的.NET5.0项目文件是这样的&#xff0c;看着非常简洁&#xff1a;<Project Sdk"Microsoft.NET.Sdk.Web"><PropertyGroup><TargetFramework>net5.0</TargetFramework></PropertyGroup><ItemGroup><PackageReference I…

笑到打鸣~ | 今日趣图

全世界只有3.14 % 的人关注了青少年数学之旅视频来源网络

JAVA拾遗1

JAVA拾遗1 1 static修饰符 类的成员变量分为静态变量和实例变量, 被stacit修饰的变量,叫静态变量,没被修饰的就是实例变量了. 静态变量的特点,在于其在内存中只有一个COPY,在使用时不需要实例化,直接用类名来调用就可以了. 同样,比如 public static int add()…

Tech·Ed 2006中国 实况报道

比较懒&#xff0c;哈哈&#xff0c;将就把园子里的几位兄弟的报道转载过来了&#xff0c;俱乐部的兄弟们先欣赏到&#xff0c;有时间我在写点报道了 :)全球首发----TechEd 2006中国 实况报道。全程跟踪。(一)全球首发----TechEd 2006中国 实况报道。全程跟踪。(二)全球首发---…

为什么理工类专业成绩好的人,英语总是很差?

▲ 点击查看在知乎上曾经有一个话题&#xff1a;为什么会有数学很好但英语很差的人&#xff1f;这个话题还被浏览了四十多万次。说起这个话题&#xff0c;评论中很多人也纷纷表示感同身受。在上学的时候&#xff0c;要么英语成绩好到飞起&#xff0c;要么数学成绩牛逼到不行。…

php大数组查找算法,PHP简单的数组查找算法分享

PHP中对于数组的查找可以用顺序查找或二分法查找。其中顺序查找比较简单&#xff0c;就是逐个比较查找。但缺点也较明显&#xff0c;如果查找的元素恰巧在最后一个&#xff0c;循环的次数过多。1.顺序查找算法描述在数组中逐个查找&#xff0c;确认是否有某个元素&#xff0c;存…

.Net Core with 微服务 - Polly 服务降级熔断

在我们实施微服务之后&#xff0c;服务间的调用变的异常频繁。多个服务之间可能是互相依赖的关系。某个服务出现故障或者是服务间的网络出现故障都会造成服务调用的失败&#xff0c;进而影响到某个业务服务处理失败。某一个服务调用失败轻则造成当前相关业务无法处理&#xff1…

IfElseActivity

IfElseActivity 1.IfElseActivity有两个IfElseBranch子控件&#xff0c;分别作为IfElse的两个分支容器,系统自动添加&#xff0c; 2.其中左边(为真件条)的IfElseBranch容器要设Condition 3.IfElse左边(为真件条)的IfElseBranch容器的Condition有两个条件模式:Code Condition,De…

vim cheat-sheet

Vim 命令小抄original card by Laurent Gregoires redesign by brohan基本移动 插入模式 撤消&#xff0c;重做 h l j k左/右 移动一个字符&#xff1b;上/下 移动一行 ^Vc ^Vn插入字符 c 的本义/十进制值 n u U撤销最近的改动 / 恢复最近被改动的行b w向 左/右 移动一个单词…

递归与非递归法实现链表相加 CC150 V5 2.5题 java版

前言&#xff1a;这是一道很有意思的题目&#xff0c;原题如下&#xff1a;You have two numbers represented by a linked list, where each node contains a single digit. The digits are stored in reverse order, such that the 1’s digit is at the head of the list. W…

荷兰人发明的新客机是劈叉的!乘客坐在机翼上

全世界只有3.14 % 的人关注了青少年数学之旅与汽车外型的复杂多变相比&#xff0c;飞机的外型似乎总是那么朴实无华&#xff0c;不管是客机还是战斗机&#xff0c;大约都是大家习以为常的那个样子……但是&#xff0c;终于有人要推陈出新了&#xff01;荷兰皇家航空公司与代尔夫…

预约 .NET Conf: Focus on F# 活动,赢得官方周边!

James: 最近 .NET 基金会预告了将在本月29日底举行的 .NET Conf: Focus on F# 线上活动&#xff0c;预约这次活动还能有机会赢得官方大礼包。.NET Conf: Focus on F# 是一个免费的、为期一天的直播活动&#xff0c;会上有来自社区和使用f#语言的微软团队的演讲者。学习 F# 如何…

【转】测试人员的思想理念和工作方法

测试人员的思想理念和工作方法 软件测试的前提假设 测试人员进行软件测试的基本假设是“有罪推断” &#xff0c;即认为被测程序一定是有bug的&#xff0c;而且每个功能点的实现都存在bug&#xff0c;而且一定存在严重的bug。 请牢记这个假设 &#xff0c;一旦在日后的工作过程…

.NET Day in China(上海-今日活动)| 线上线下

点击蓝字关注我们活动简介.NET 6 Preview 6 在 7月14日已经发布&#xff0c;.NET 6 是微软开启全平台统一一个 .NET 计划以来的第一个 LTS 版本&#xff0c;意义重大&#xff0c;微软在 .NET 6 引入了 MAUI&#xff0c;跨平台开发将更为简单&#xff0c;ASP.NET Core 也在不断的…