基于textdistance计算文本相似度

textdistance是Python的第三方库,用于计算文本之间的相似度或距离。它提供了30+个算法,简单易用。
1

安装

pip install textdistance# 使用扩展库,提高性能
pip install "textdistance[extras]"

使用

import textdistance# 计算编辑距离
distance = textdistance.levenshtein.distance("如何更换花呗绑定银行卡", "花呗更改绑定银行卡")
print("编辑距离:", distance)# 计算余弦相似度
similarity = textdistance.cosine.similarity("如何更换花呗绑定银行卡", "花呗更改绑定银行卡")
print("余弦相似度:", similarity)# 计算 Jaccard 系数
coefficient = textdistance.jaccard("如何更换花呗绑定银行卡", "花呗更改绑定银行卡")
print("Jaccard 系数:", coefficient)# 计算 Hamming 距离
distance = textdistance.hamming.distance("如何更换花呗绑定银行卡", "花呗更改绑定银行卡")
print("Hamming 距离:", distance)

结果:

编辑距离: 5
余弦相似度: 0.8040302522073697
Jaccard 系数: 0.6666666666666666
Hamming 距离: 10

应用场景

拼写检查

在拼写检查中,可以使用编辑距离等算法来比较单词之间的相似度,从而找出可能的正确拼写。

import textdistance# 拼写检查
word = "发愤图强"
possible_spellings = ["发奋图强", "发奋图", "发愤图"]for spelling in possible_spellings:distance = textdistance.levenshtein.distance(word, spelling)if distance <= 1:print("可能的正确拼写:", spelling)

结果

可能的正确拼写: 发奋图强
可能的正确拼写: 发愤图

文档相似度计算

在信息检索和推荐系统中,经常需要计算文档之间的相似度,以便为用户提供相关的信息或推荐内容。

import textdistance# 文档相似度计算
doc1 = "Python is a programming language"
doc2 = "Python is used for web development"
doc3 = "Java is a programming language"similarity1 = textdistance.cosine.similarity(doc1, doc2)
similarity2 = textdistance.cosine.similarity(doc1, doc3)print("文档1和文档2的余弦相似度:", similarity1)
print("文档1和文档3的余弦相似度:", similarity2)
文档1和文档2的余弦相似度: 0.6063390625908325
文档1和文档3的余弦相似度: 0.8391463916782737

数据清洗

在数据清洗过程中,可以使用 Hamming 距离等算法来比较数据条目之间的相似度,从而找出相似但不完全相同的数据。

import textdistance# 数据清洗
data = ["配偶", "原配", "元配", "老婆", "夫人", "爱人"]for i in range(len(data)):for j in range(i+1, len(data)):distance = textdistance.hamming.distance(data[i], data[j])if distance <= 1:print("相似但不完全相同的数据:", data[i], data[j])

结果:

相似但不完全相同的数据: 原配 元配
相似但不完全相同的数据: 夫人 爱人

import textdistance# 姓名匹配
name1 = "李建国"
name2 = "张建国"
name3 = "王爱国"coefficient1 = textdistance.jaccard.normalized_similarity(name1, name2)
coefficient2 = textdistance.jaccard.normalized_similarity(name1, name3)print("姓名1和姓名2的Jaccard系数:", coefficient1)
print("姓名1和姓名3的Jaccard系数:", coefficient2)

结果

姓名1和姓名2的Jaccard系数: 0.5
姓名1和姓名3的Jaccard系数: 0.19999999999999996

textdistance 提供了丰富多样的文本比较算法和距离度量方法,可以满足各种不同的文本比较需求。

相关链接

源码

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/730321.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

多目标跟踪中的数据关联

多目标追踪之数据关联多目标跟踪数据关联算法比较 在单目标无杂波环境下&#xff0c;目标的相关波门内只有一个点迹&#xff0c;此时只涉及跟踪问题。 在多目标情况下&#xff0c;有可能出现单个点迹落入多个波门的相交区域内&#xff0c;或者多个点迹落入单个目标的相关波门内…

本鲸多方位助力创业者高效对接创新创业机遇

在科技创新的浪潮中&#xff0c;创业者们不断探索着新的商业机会&#xff0c;寻求着创新创业的道路。然而&#xff0c;面对复杂多变的市场环境和激烈的竞争压力&#xff0c;如何高效对接创新创业机遇成为了摆在创业者面前的重要课题。 本鲸依托海南本鲸投资有限公司和重庆本鲸…

007-双向绑定原理

双向绑定原理 双向绑定思考&#xff1a;一句话描述原理DocuemntFragment&#xff08;碎片化文档&#xff09;Object.defineProperty&#xff08;数据劫持&#xff09;发布订阅者模式Vue 双向绑定图示Vue 双向绑定完整实现代码 双向绑定 vue中 data定义的数据会添加双向绑定的功…

照片坐标 | 使用EXCEL批量读取照片GPS坐标并标注拍摄地图

一 前言 7、8月是旅游的季节&#xff0c;旅途过程我们经常使用手机拍摄记录美好的瞬间&#xff0c;整个旅途使用手机拍摄已成为用户高频的出行习惯&#xff0c;无论是小孩、年轻人、老年人&#xff0c;只要手机在手&#xff0c;都会频频举起手机进行拍摄&#xff0c;贯穿整个旅…

数据中心制冷系统设计40个问题

1、制冷系统安全运行的三个必要条件是什么&#xff1f; 答: &#xff08;1&#xff09;系统内的制冷剂压力不得出现异常高压&#xff0c;以免设备破裂。 &#xff08;2&#xff09;不得发生&#xff08;可能导致&#xff09;湿冲程、液爆、液击等误操作&#xff0c;以免设备破…

网工内推 | 网络工程师,IE认证优先,最高15K,有项目绩效奖金

01 重庆并联网络科技有限公司 招聘岗位&#xff1a;网络工程师 职责描述&#xff1a; 1、负责集成项目的相关实施工作&#xff08;设备上架安装、网络设备配置、服务器相关系统配置安装、相关软件环境搭建及配置等&#xff09; 2、负责项目现场技术维护与技术支持&#xff1b;…

透视B站财报:从前景看“钱景”

3月7日晚&#xff0c;哔哩哔哩发布了2023年度及第四季度财报。 财报显示&#xff0c;哔哩哔哩2023年总营收225亿元&#xff0c;净亏损同比大幅收窄49%&#xff0c;其中第四季度总营收达63.5亿元。 在后续电话会议上&#xff0c;哔哩哔哩管理层对市场上重点关注的“B站2024年能…

ubuntu追加path环境变量

要在 bash shell 中追加 PATH 环境变量&#xff0c;你可以编辑用户的 .bashrc 文件&#xff08;对单个用户生效&#xff09;或者 .bash_profile 文件&#xff08;在某些系统上&#xff09;&#xff0c;或是系统级的配置文件&#xff08;例如 /etc/profile 或 /etc/environment&…

史上最全AP/mAP通用代码实现(yolov5 txt版本)-下

提示&#xff1a;通用map指标框架代码介绍&#xff0c;直接使用yolov5数据格式&#xff0c;实现论文map指标计算代码解读 文章目录 前言该版本是直接使用yolo数据格式实现map计算&#xff0c;集成txt转json格式内容。 一、map模块整体认识二、map计算应用代码解读三、通用map计…

项目实践《微信自动回复》

文章目录 一、前置接口一、打开微信二、监听微信信息三、截取聊天区域并提取关键字四、根据关键字自动回复五、基础版六、完整版 在我们的生活中&#xff0c;微信无疑是一个重要的社交工具。无论是工作还是社交&#xff0c;我们都离不开它。但是&#xff0c;随着繁忙的生活节奏…

egg如何写单元测试

优秀的代码需要有单元测试进行质量保证&#xff0c;每个测试用例都给应用的稳定性提供了一层保障。 测试目录结构 我们约定 test 目录为存放所有测试脚本的目录&#xff0c;测试所使用到的 fixtures 和相关辅助脚本都应该放在此目录下。 测试文件的目录和我们需要测试的文件目…

Redis进阶(三):主从复制

为了解决单点问题&#xff0c;实现多服务器部署redis&#xff0c;有几种解决方案可以实现&#xff1a;主从复制&#xff0c;主从哨兵还有集群。 何为主从复制 简单来说有三个服务器分别部署了redis-server程序&#xff0c;选中一个服务器当作主节点&#xff0c;其他的就是从节…

机器学习笔记 计算机视觉中的测距任务常见技术路线

一、计算机视觉中的测距任务 测距是计算机视觉中的一项关键任务,涉及测量物体和相机之间的距离。这些信息可用于多种应用,包括机器人、自动驾驶汽车和增强现实。测距技术有很多种,包括主动式和被动式,每种技术都有自己的优点和局限性。主动测距技术,例如飞行时间、结构光和…

动态规划DP之背包问题3---多重背包问题

目录 DP分析&#xff1a; 优化&#xff1a; 二进制优化 例题&#xff1a; 01背包是每个物品只有一个&#xff0c;完全背包问题是每个物品有无限个。 那么多重背包问题就是 每个物品有有限个。 有 N 种物品和一个容量是 V 的背包。 第 i 种物品最多有 si 件&#xff0c;每件体…

Softmax 回归 + 损失函数 + 图片分类数据集【动手学深度学习v2】李沐动手学深度学习课程笔记

目录 Softmax回归 损失函数 图片分类数据集 Softmax回归从零开始实现 Softmax回归简洁实现 Softmax回归 回归和分类的区别 回归问题举例上节课的预测房价问题&#xff0c;分类问题就是对样本进行分类 回归和分类的具体区别 假设真实的类别为第i个类别&#xff08;值为1&#x…

Restful风格接口简介

参考资料&#xff1a; 个人感觉最实用的Restful风格简介 Restful简介&#xff1a; Restful风格具有如下特点&#xff1a; URL要面向资源&#xff0c;使用和资源相关的名词要在URL中体现版本号根据Http不同的方法&#xff0c;进行不同类型的资源操作&#xff08;如用Get表示查…

js【详解】event loop(事件循环/事件轮询)

event loop 是异步回调的实现原理 js 代码的执行过程 从前到后&#xff0c;一行一行执行如果某一行执行报错&#xff0c;则停止下面代码的执行先把同步代码执行完&#xff0c;再执行异步 event loop 图解 以下方代码为例&#xff1a; 第1步 将第 1 行代码放入调用栈 将要执行第…

python数据分析numpy基础之布尔数组方法sum和any和all

1 python数据分析numpy基础之布尔数组方法sum和any和all 在前面文章介绍的sum、mean、std等统计方法中&#xff0c;布尔值True被转为1&#xff0c;False被转为0。而any和all&#xff0c;则将非0转为True&#xff0c;0转为False。 1.1 sum() python的numpy库的sum()函数&…

vue element plus Icon 图标

Element Plus 提供了一套常用的图标集合。 使用图标# 如果你想像用例一样直接使用&#xff0c;你需要全局注册组件&#xff0c;才能够直接在项目里使用。 如若需要查看所有可用的 SVG 图标请查阅 element-plus/icons-vue1.xelement-plus/icons-vuelatest 和有关 Icon Collect…

C# 生成有序Guid

C# 生成有序Guid public enum SequentialGuidType {/// <summary>/// 用于 MySql 和 PostgreSql./// 当使用 <see cref"Guid.ToString()" /> 方法进行格式化时连续./// </summary>AsString,/// <summary>/// 用于 Oracle./// 当使用 <s…