The difference between Manhattan distance and Cosine Distance

题意:为什么即使返回了相同的文本块,曼哈顿距离(Manhattan Distance)和余弦距离(Cosine Distance)之间还是存在差异?

问题背景:

I am using the qdrant DB and client for embedding a document as part of a PoC that I am working on in building a RAG.

I see that when I use a Manhattan distance to build the vector collection I get a high score than when I use the Cosine distance. However, the text chunk returned is the same. I am not able to understand why and how? I am learning my ropes here at RAG still. Thanks in advance.

我注意到,当我使用曼哈顿距离来构建向量集合时,得到的分数比使用余弦距离时要高。然而,返回的文本块是相同的。我无法理解为什么会这样以及是如何发生的。我还在RAG这里学习相关知识。提前感谢。

USER QUERY        使用查询

What is DoS?

COSINE DISTANCE        余弦距离

response: [
ScoredPoint(id=0, 
version=10, 
score=0.17464592, 
payload={
'chunk': "It also includes overhead bytes for operations, 
administration, and maintenance (OAM) purposes.\nOptical Network Unit 
(ONU)\nONU is a device used in Passive Optical Networks (PONs). It converts 
optical signals transmitted via fiber optic cables into electrical signals that 
can be used by end-user devices, such as computers and telephones. The ONU is 
located at the end user's premises and serves as the interface between the optical 
network and the user's local network."
}, 
vector=None, shard_key=None)
]

MANHATTAN DISTANCE                曼哈顿距离

response: [
ScoredPoint(id=0, 
version=10, 
score=103.86209, 
payload={
'chunk': "It also includes overhead bytes for operations, administration, 
and maintenance (OAM) purposes.\nOptical Network Unit 
(ONU)\nONU is a device used in Passive Optical Networks (PONs). It converts 
optical signals transmitted via fiber optic cables into electrical signals that 
can be used by end-user devices, such as computers and telephones. The ONU is 
located at the end user's premises and serves as the interface between the optical 
network and the user's local network."
}, 
vector=None, shard_key=None)
]

问题解决:

There are many different math functions that can be used to calculate similarity between two embedding vectors:

  • Cosine distance,                                余弦距离
  • Manhattan distance (L1 norm),         曼哈顿距离(Manhattan Distance,也称为L1范数)
  • Euclidean distance (L2 norm),          欧氏距离(Euclidean Distance,也称为L2范数)
  • Dot product,                                       点积(Dot Product)
  • etc.

Each calculates similarity in a different way, where:

每种方法都以不同的方式计算相似度,其中:

余弦距离测量两个非零向量之间夹角的余弦值。余弦距离对向量的方向敏感,而对向量的大小(模长)不那么敏感。

  • The Cosine distance measures the cosine of the angle between two non-zero vectors. The Cosine distance is sensitive to the direction of the vectors and is less sensitive to the magnitude.
  • The Manhattan distance measures the absolute difference between the corresponding elements of two vectors. The Manhattan distance is sensitive to the magnitude of the vectors.

曼哈顿距离测量两个向量对应元素之间的绝对差值。曼哈顿距离对向量的大小(模长)敏感。

  • The Euclidean distance measures the straight-line distance between two vectors.

欧氏距离测量两个向量之间的直线距离。

  • The Dot product measures the angle between two vectors multiplied by the product of their magnitudes.

点积测量两个向量之间的角度,并乘以这两个向量模长的乘积。

Consequently, the results of similarity calculations are different, where:

因此,相似度计算的结果是不同的,其中:

  • The Cosine distance is always in the range [0, 2]. 

余弦距离(实际上是1减去余弦相似度得到的值)总是在[0, 2]的范围内。

  • The Manhattan distance is always in the range [0, ∞).

曼哈顿距离总是在[0, ∞)的范围内。

  • The Euclidean distance is always in the range [0, ∞).

欧氏距离总是在[0, ∞)的范围内。

  • The Dot product is always in the range (-∞, ∞).

See the table below.

Measure 试题Range 范围Interpretation  解释

Cosine distance

余弦距离

[0, 2]

0 if vectors are the same, 2 if they are diametrically opposite.

如果向量相同则为0,如果它们完全相反则为2。

Manhattan distance

曼哈顿距离

[0, ∞)

0 if vectors are the same, increases with the sum of absolute differences.

如果向量相同则为0,随着绝对差值的和的增加而增加。

Euclidean distance

欧氏距离

[0, ∞)

0 if vectors are the same, increases with the sum of squared differences.

如果向量相同则为0,随着平方差的和的增加而增加。

Dot product

点积

(-∞, ∞)

Measures alignment, can be positive, negative, or zero based on vector direction.

测量对齐性,可以根据向量的方向为正、负或零。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/863045.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

API-M端事件

学习目标: 掌握M端事件 学习内容: M端事件 M端事件: 移动端也有自己独特的地方。 比如触屏事件 touch(也称触摸事件),Android和IOS都有。触屏事件 touch(也称触摸事件)&#xff0…

排序【插入排序】

排序的概念 排序:所谓排序,就是将一份数据,通过某个或者某些关键字的大小,进行递增或者递减排序的操作。 稳定性:假定在待排序的数据组中,存在多个相同的元素,若经过排序,这些数据…

从零开始学习Linux(11)----进程间通信(管道)

1.引言 两个进程之间,可以进行数据的直接传递吗?不能!进程具有独立性 1.为什么?? 数据传输:一个进程需要将它的数据发送给另一个进程资源共享:多个进程之间共享同样的资源通知事件&#xff1a…

决定佛蒙特州版图的关键历史事件:

​决定佛蒙特州版图的关键历史事件: 1. 早期探险与命名: - 1609年,法国探险家萨缪尔德尚普兰(Samuel de Champlain)到达了现在的佛蒙特州区域,并探索了尚普兰湖(Lake Champlain)。他将周围的山…

深入探索Scala的高级类型系统:特性与应用

Scala是一种静态类型编程语言,以其强大的类型系统而著称。Scala的类型系统不仅提供了类型安全,还支持高级编程技术,如模式匹配、高阶函数和泛型编程。本文将深入探讨Scala类型系统的高级特性,包括它们的工作原理、如何使用以及在实…

为Python脚本创建用户友好的图形界面:选择适合你的方法

在Python中创建图形用户界面(GUI)有多种方法,每种方法都有其独特的优点和适用场景。以下是几种流行且有效的方法,帮助你选择最适合的GUI框架。 PySimpleGUI 易用性:PySimpleGUI通过包装Tkinter、Qt、WxPython和Remi简…

TS_类型

目录 1.类型注解 2.类型检查 3.类型推断 4.类型断言 ①尖括号&#xff08;<>&#xff09;语法 ②as语法 5.数据类型 ①boolean ②number ③string ④undefined 和 null ⑤数组和元组 ⑥枚举 ⑦any 和void ⑧symbol ⑨Function ⑩Object 和 object 6.高…

SpringBoot 与 PageHelper 的正确集成方法,避免常见误区!

在现代Java Web开发中&#xff0c;分页是一个常见且重要的功能。PageHelper作为一个强大的分页插件&#xff0c;能够与MyBatis无缝集成&#xff0c;提供便捷的分页操作。然而&#xff0c;很多开发者在使用SpringBoot集成PageHelper时&#xff0c;常常被网上各种教程误导&#x…

局部 `DataContext`

为了确保的新 ViewModel 不会影响现有绑定到 MainViewModel 的其他属性&#xff0c;可以使用 MonitorPage 作为 UserControl 的局部 DataContext&#xff0c;而不覆盖整个 UserControl 的 DataContext。可以通过在 XAML 中的某个局部范围内&#xff08;如包含时间显示的 TextBl…

ATL新能源科技薪资待遇及Verify测评语言理解数字推理题型简介

一、走进ATL新能源科技 ATL新能源公司&#xff0c;即东莞新能源科技有限公司&#xff0c;是全球领先的可充式锂离子电池研发、生产和营销企业。成立于2004年&#xff0c;总部位于香港&#xff0c;产品广泛应用于消费电子产品和电动汽车领域。ATL以其技术创新和与苹果等大客户的…

Java中的Monad设计模式及其实现

Java中的Monad设计模式及其实现 在函数式编程中&#xff0c;Monad是一种重要的设计模式&#xff0c;用于处理包含隐含计算信息&#xff08;如计算顺序、环境、状态、错误处理等&#xff09;的计算。Monad提供了一种结构&#xff0c;使得可以将计算链式连接起来&#xff0c;每一…

2024年【电工(初级)】考试内容及电工(初级)模拟考试题

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 电工&#xff08;初级&#xff09;考试内容参考答案及电工&#xff08;初级&#xff09;考试试题解析是安全生产模拟考试一点通题库老师及电工&#xff08;初级&#xff09;操作证已考过的学员汇总&#xff0c;相对有…

等保2.0安全计算环境解读

等保2.0&#xff0c;即网络安全等级保护2.0制度&#xff0c;是中国为了适应信息技术的快速发展和安全威胁的新变化而推出的网络安全保护标准。相较于等保1.0&#xff0c;等保2.0更加强调主动防御、动态防御和全面审计&#xff0c;旨在实现对各类信息系统的全面保护。 安全计算环…

如何使用PHP和swoole进行大规模的网络爬虫开发?

如何使用php和swoole进行大规模的网络爬虫开发&#xff1f; 引言&#xff1a; 随着互联网的迅速发展&#xff0c;大数据已经成为当今社会的重要资源之一。为了获取这些宝贵的数据&#xff0c;网络爬虫应运而生。网络爬虫可以自动化地访问互联网上的各种网站&#xff0c;并从中…

Docker基础知识的掌握,相关基本命令的用法

安装docker步骤&#xff1a;https://b11et3un53m.feishu.cn/wiki/Rfocw7ctXij2RBkShcucLZbrn2d 1.docker Docker 是一种容器化平台&#xff0c;用于帮助开发者打包、发布和管理应用程序及其依赖关系。通过 Docker&#xff0c;开发者可以将应用程序及其所有依赖项打包到一个称为…

『MySQL 实战 45 讲』22 - MySQL 有哪些“饮鸩止渴”提高性能的方法?

MySQL 有哪些“饮鸩止渴”提高性能的方法&#xff1f; 需求&#xff1a;业务高峰期&#xff0c;生产环境的 MySQL 压力太大&#xff0c;没法正常响应&#xff0c;需要短期内、临时性地提升一些性能 短连接风暴 短连接模式&#xff1a;执行很少的 SQL 语句就断开&#xff0c;…

uniapp加载打点点效果

uniapp加载打点点效果 背景实现思路代码实现尾巴 背景 为了增加系统的交互性&#xff0c;我们在加载数据时通常会增加一些loading动效&#xff0c;但是在某些场景下只需要一些简单文字提醒。比如说使用【加载中】或者【loading】等字段&#xff0c;但是写静态的字符又显得交互…

【若依前后端分离】前端vue页面查看服务器本地的PDF

后端实现&#xff1a; 使用FileSystemResource包装文件&#xff0c;以便Spring MVC可以处理该资源 创建HttpHeaders对象以设置响应头 设置Content-Disposition头&#xff0c;使得浏览器以内联方式显示PDF&#xff08;即在浏览器中直接打开&#xff09; 设置Content-Type为appli…

Thinger.io 支持多协议、插件化100%开源 IoT 企业级物联网平台

项目源码&#xff0c;文末联系小编 Thinger.io 是一个开源插件化物联网平台&#xff0c;提供了设备原型、扩展和设备连接管理所需的一切工具。我们的目标是使物联网的使用民主化&#xff0c;使其可供全世界使用&#xff0c;并简化大型物联网项目的开发。 01 Thinger.io 物联网平…

Python学习路线图:120天系统学习,你也能成大神!

学Python&#xff0c;切忌今天这学一点&#xff0c;明天那里学一点&#xff0c;零零散散没有系统的学习。这样不仅耽搁大家时间&#xff0c;久而久之也会消磨大家学习的兴致&#xff01;这里给大家总结了一张系统的Python学习路线图&#xff01;希望大家共勉&#xff01; Pyth…