数据处理之计算文本相似度|余弦相似度|欧氏距离

数据处理之计算文本相似度|余弦相似度|欧氏距离

diannao/2025/11/20 18:59:47/文章来源:https://blog.csdn.net/DREAM_xs/article/details/145123631

计算文本相似度是自然语言处理中的一个重要任务，用于评估两个或多个文本之间的相似程度。以下是几种常用的方法及其背后的实现机制：

基于词频的方法(重点)

余弦相似度 (Cosine Similarity)：将文档表示为词频向量（如使用词袋模型），然后计算这两个向量之间的夹角余弦值。
**欧氏距离（Euclidean Distance）**是几何学中用于衡量两点之间直线距离的一种度量方式，它来源于欧几里得空间中的距离公式。
TF-IDF (Term Frequency-Inverse Document Frequency)：通过衡量词在文档中的重要性来改进简单的词频方法。结合了词频和逆文档频率，可以更好地反映词语的重要性，并且常与余弦相似度一起使用。

基于语义的方法(重点)

将 文本转为向量 (Word Embeddings, BERT 等预训练语言模型) 通过计算这些向量之间的距离（例如欧氏距离或余弦相似度）来评估词语或句子的相似性。

基于编辑距离的方法

Levenshtein 距离：计算从一个字符串转换成另一个字符串所需的最少编辑操作次数（插入、删除或替换字符）。这个距离越小，两个字符串就越相似。
Damerau-Levenshtein 距离：与Levenshtein类似，但还允许交换相邻字符的操作。

基于主题模型的方法

LDA (Latent Dirichlet Allocation)：这是一种统计模型，用来识别文档集合中的潜在主题分布。两个文档的主题分布越接近，它们的内容就越相似。

基于句子变换器的方法

Sentence-BERT：这是BERT的一个变体，特别优化了句子级别的表示。它可以直接对句子进行编码得到固定长度的向量表示，然后使用余弦相似度等方法快速计算文本相似度。

实现

根据具体的应用场景和数据特点选择合适的方法。

对于简单的词汇级别匹配任务，基于词频的方法（如TF-IDF+余弦相似度）通常是快速而有效的解决方案；
对于需要更深入理解文本内容的任务，现代深度学习方法（如基于BERT的Sentence-BERT）通常能提供更好的结果，因为它们能够捕捉到更复杂的语义关系。

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/66973.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

精通SCP命令：安全高效地进行文件传输

精通SCP命令：安全高效地进行文件传输

精通SCP命令：安全高效地进行文件传输 SCP（Secure Copy Protocol）命令是一个基于SSH协议的命令行工具，用于在本地系统和远程系统之间安全地复制文件和目录。以下是SCP命令的详细用法： 基本语法 scp [选项] [源文件或…

阅读更多...

Word 转成pdf及打印的开源方案支持xp

Word 转成pdf及打印的开源方案支持xp

Word转成pdf、打印的方案几乎没有免费开源的方案，现在提供一个通过LibreOffice实现的方案操作依赖LibreOffice需要安装，点此下载老版本 5.4.7.2是最后一个支持xp的版本如需xp要请安装此版本 LibreOffice官方介绍 LibreOffice 是一款开放源代码的自…

阅读更多...

蓝桥杯备考：数据结构之栈和 stack

蓝桥杯备考：数据结构之栈和 stack

目录栈的概念以及栈的实现 STL 的stack 栈和stack的算法题栈的模板题栈的算法题之有效的括号验证栈序列后缀表达式括号匹配栈的概念以及栈的实现栈是一种只允许在一端进行插入和删除的线性表空栈：没有任何元素入栈：插入元素消息出…

阅读更多...

C++中的条件变量（condition_variable）详解：小白版

C++中的条件变量（condition_variable）详解：小白版

在编程中，我们经常需要处理多个任务，这些任务可能需要同时运行，也可能需要按照一定的顺序运行。这就涉及到了线程的概念。线程就像是一个小程序，它可以在程序中独立运行，而且可以和其他线程并行执行。但是&#xff0…

阅读更多...

【python】OpenCV—Local Translation Warps

【python】OpenCV—Local Translation Warps

文章目录 1、功能描述2、原理分析3、代码实现4、效果展示5、完整代码6、参考 1、功能描述利用液化效果实现瘦脸美颜交互式的液化效果原理来自 Gustafsson A. Interactive image warping[D]. , 1993. 2、原理分析上面描述很清晰了，鼠标初始在 C，也即…

阅读更多...

STM32标准库学习笔记（十）SPI

STM32标准库学习笔记（十）SPI

前言学习永无止境！本篇是嵌入式开发之片上外设SPI，了解基本硬件原理以及通信协议。注：本文章为学习笔记，部分图片与文字来源于网络/江协科技课程/手册，如侵权请联系！谢谢！ 一、SPI通信概述 1.…

阅读更多...

探索 C++ 与 LibUSB：开启 USB 设备交互的奇幻之旅

探索 C++ 与 LibUSB：开启 USB 设备交互的奇幻之旅

一、引言在当今数字化时代，USB（通用串行总线）设备无处不在，从常见的 U 盘、鼠标、键盘，到复杂的工业数据采集设备、医疗监测仪器等，它们以方便快捷的插拔式连接，为人们的生活和工作带来了极大…

阅读更多...

LeetCode 209 题：长度最小的子数组

LeetCode 209 题：长度最小的子数组

LeetCode 209 题：长度最小的子数组 (Minimum Size Subarray Sum) LeetCode 第209题要求给定一个正整数数组 nums 和一个正整数 target，找出具有最小长度的连续子数组，使得子数组的和大于或等于 target。如果不存在这样的子数组，返…

阅读更多...

从github上，下载的android项目，从0-1进行编译运行-踩坑精力，如何进行部署

从github上，下载的android项目，从0-1进行编译运行-踩坑精力，如何进行部署

因为国内的网络原因，一直在anroidstudio开发的问题上，是个每个开发者都会踩坑一直以为是自己的原因，其实很多都是国内网络的原因，今天就从一个开发者的视角把从github上一个陌生的项目，如何通过本地就行运行的首先…

阅读更多...

计算机网络（40）域名系统DNS

计算机网络（40）域名系统DNS

前言计算机网络域名系统DNS（Domain Name System）是互联网的基础技术之一，它负责将人类可读的域名转换为计算机用来通信的数字IP地址。一、基本概念 DNS的主要目的是将域名解析或翻译为IP地址，使得用户可以通过简单易记的域名来访…

阅读更多...

使用Dify创建个问卷调查的工作流

使用Dify创建个问卷调查的工作流

为啥要使用Dify创建工作流呢？一个基于流程的智能体的实现，特别是基于业务的实现，使用Dify去实现时，通常都是一个对话工作流，当设计到相对复杂一些的流程时，如果将所有逻辑都放在对话工作流中去实现&#xf…

阅读更多...

toRef 和 toRefs 详解及应用

toRef 和 toRefs 详解及应用

在 Vue 3 中，toRef 和 toRefs 是两个用于创建响应式引用的工具，主要用于组合式 API（Composition API）的场景中 1. toRef 定义 toRef 将某个对象的某个属性包装成一个响应式引用。这样可以直接对该引用进行操作，而不需…

阅读更多...

八 rk3568 android11 AP6256 蓝牙调试

八 rk3568 android11 AP6256 蓝牙调试

一经典蓝牙经典蓝牙默认可以工作，验证可以连接蓝牙鼠标，键盘，连接手机等等，在系统设置里打开蓝牙，扫描设备，配对连接即可。注：连接 ANDROID 手机的坑 1 手机连接之后空闲状态会断开，变成配对的设备不是已连接，是正常，使用时又会自动连接 2 手机传…

阅读更多...

解读若依微服务架构图：架构总览、核心模块解析、消息与任务处理、数据存储与缓存、监控与日志

解读若依微服务架构图：架构总览、核心模块解析、消息与任务处理、数据存储与缓存、监控与日志

文章目录 1. 引言2. 架构总览3. 核心模块解析3.1 服务注册与配置中心Nacos：微服务的中枢 3.2 网关层ruoyi-gateway：服务的统一入口 3.3 核心业务服务3.4 认证服务ruoyi-auth：认证与授权的守护者 3.5 异构服务整合Sidecar：连接异构…

阅读更多...

【MySQL】基础架构分析

【MySQL】基础架构分析

考察频率难度40%⭐⭐⭐⭐ 这道题在面试时的出现频率其实并不高，最起码对于笔者来说是没有遇到过。那为什么还是选择把这个问题作为 MySQL 八股文系列的第一个呢？其实原因也挺简单的，还是老规矩，先通过一个问题把整个知识框架来一…

阅读更多...

【已解决】【记录】2AI大模型web UI使用tips 本地

【已解决】【记录】2AI大模型web UI使用tips 本地

docker desktop使用互动如果需要发送网页链接，就在链接上加上【#】号如果要上传文件就点击这个➕号中文回复命令它只用中文回复，在右上角打开【对话高级设置】输入提示词（提示词使用英文会更好） Must reply to the us…

阅读更多...

热烈祝贺“钛然科技”选择使用订单日记

热烈祝贺“钛然科技”选择使用订单日记

感谢珠海钛然科技有限公司选择使用订单日记！ 珠海钛然科技有限公司，成立于2020年，位于广东省珠海市高新区，是一家以从事研发和生产功能型纳米高分子涂层为主的企业。在业务不断壮大的过程中，想使用一种既能提升运营…

阅读更多...

关于H5复制ios没有效果

关于H5复制ios没有效果

问题场景：今天遇到这样一个问题，需要从后端接口获取到的值进行复制，且不能提现调用获取值，因为是一个数据列表，每个列表元素需要当场点击调用接口获取值进行复制，本来以为很简单的一个需求，当做…

阅读更多...

使用 versions-maven-plugin 和 flatten-maven-plugin 插件惯例 maven 项目版本

使用 versions-maven-plugin 和 flatten-maven-plugin 插件惯例 maven 项目版本

在 Maven 项目中，依赖版本管理和 POM 文件的规范化是确保项目可维护性和一致性的关键。今天，我们将介绍两个强大的 Maven 插件：versions-maven-plugin 和 flatten-maven-plugin，它们可以帮助我们更高效地管理项目版本和 POM 文件。…

阅读更多...

【Vue】Vue 拖拽指令禁选文字解决子元素 input 不能输入、拖动粘连鼠标

【Vue】Vue 拖拽指令禁选文字解决子元素 input 不能输入、拖动粘连鼠标

directives: { drag(el) { // 解决拖动会选中文字的问题 document.onselectstart () > { return false } el.onmousedown function (event) { // 解决子元素 input 框无法输入等情况 if(event.target?.nodeName INPUT || event.target?.nodeName IMG) { return } cons…

阅读更多...

最新文章