DeepSort知识整理:余弦距离和马氏距离 (一)

一、余弦距离

1.1 余弦相似度

余弦相似度是用来衡量两个非零向量之间的夹角的余弦值。对于两个向量 A A A B B B,余弦相似度的计算公式为:


C o s i n e S i m i l a r i t y ( A , B ) = A ⋅ B ∥ A ∥ ∥ B ∥ {\rm{Cosine Similarity }}\left( {{\rm{A,B}}} \right) = \frac{{A \cdot B}}{{\parallel A\parallel \parallel B\parallel }} CosineSimilarity(A,B)=A∥∥BAB

1.2 余弦距离(Cosine Distance)

余弦距离是余弦相似度的补数,即:
C o s i n e D i s t a n c e ( A , B ) = 1 − C o s i n e S i m i l a r i t y ( A , B ) {\rm{Cosine Distance }}\left( {{\rm{A,B}}} \right) = 1 - {\rm{Cosine Similarity }}\left( {{\rm{A,B}}} \right) CosineDistance(A,B)=1CosineSimilarity(A,B)
余弦距离的值范围在0到2之间,越接近0表示两个向量越相似,越接近2表示越不相似。

二、马氏距离

马氏距离是一种测量两个点之间距离的方法,不同于欧几里得距离,它考虑了数据的协方差

定义:设 x x x y y y是从均值为 μ \mu μ,协方差矩阵为 Σ \Sigma Σ(>0)的样本总体 π \pi π中抽取的两个样品( p p p维),则:
x x x y y y之间的平方马氏距离定义为:
d 2 ( x , y ) = ( x − y ) T Σ − 1 ( x − y ) {d^2}(x,y) = {(x - y)^T}{{\bf{\Sigma }}^{ - 1}}(x - y) d2(x,y)=(xy)TΣ1(xy)
若协方差是单位矩阵,即:所有变量之间的协方差都为零,那么数据的各个特征(维度)是相互独立的,且每个特征的方差都等于1。在这种情况下,马氏距离可以简化为欧式距离,因为协方差矩阵的逆矩阵就是单位矩阵。

2.1 方差(Variance)

方差是用来度量单一随机变量的分散程度或波动性的统计量。衡量数据点与数据集均值之间的离散程度。方差越大,数据点越分散,对于随机变量 x x x,其方差计算如下:
V a r ( X ) = σ x 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 {\rm{Var}}(X) = \sigma _x^2 = \frac{1}{{n - 1}}\sum_{i=1}^n (x_i - \bar{x})^2 Var(X)=σx2=n11i=1n(xixˉ)2
在计算样本方差时,我们通常将分母中的除数设为 ( n − 1 ) (n - 1) (n1) 而不是 n n n。这是因为计算样本方差的目的是估计总体方差,而在估计过程中需要考虑样本的大小对估计精度的影响。这种校正的目的是为了更准确地估计总体方差,因为样本方差通常会略微低估总体方差。

当将除数设为 ( n − 1 ) (n - 1) (n1) 时,称为自由度调整。自由度调整的原因在于样本中的数据点之间并不是完全独立的,而是相互关联的。如果我们仅将除数设为 n n n,那么样本方差可能会过低估计总体方差,因为它没有考虑到样本中的这种关联性。

自由度调整考虑了这种关联性,通过将除数设为 ( n − 1 ) (n - 1) (n1) 来更准确地估计总体方差。这意味着我们不会过于乐观地估计总体方差,从而更好地反映了总体的分散性。这对于统计推断和参数估计非常重要,因为我们希望我们的估计尽可能接近总体参数的真实值。

总结一下,自由度调整的目的是减小样本方差的偏差,使其更接近总体方差的真实值,从而提高统计估计的准确性。这是统计学中常见的惯例。

2.2 协方差(Covariance)

协方差用于度量两个随机变量之间的线性关系,即它度量这两个变量如何一起变化。对于两个随机变量 X X X Y Y Y,它们的协方差可以用以下公式计算:
σ ( x , y ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) ( y i − y ˉ ) \sigma(x, y) = \frac{1}{{n - 1}} \sum_{i=1}^n (x_i - \bar{x})(y_i - \bar{y}) σ(x,y)=n11i=1n(xixˉ)(yiyˉ)
上述公式是样本协方差的计算方法。若有整个总体的数据,可以将 (n - 1) 改为 n,得到总体协方差。
C o v ( X , Y ) = E [ ( X − μ x ) ( Y − μ y ) ] {\rm{Cov}}(X,Y) = E\left[ {\left( {X - {\mu _x}} \right)\left( {Y - {\mu _y}} \right)} \right] Cov(X,Y)=E[(Xμx)(Yμy)]
正协方差表示两个变量正相关,负协方差表示两个变量负相关,零协方差表示两个变量不相关。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2.3 皮尔逊相关系数(Pearson Correlation Coefficient)

协方差的值可以为正、负或零,但它本身并没有标准化,因此很难用来比较不同数据之间的关系。为了更容易理解变量之间的关系,通常会将协方差标准化为相关系数(Correlation Coefficient),也称为皮尔逊相关系数。相关系数的范围在 -1 到 1 之间,更容易解释和比较不同数据集的关系,为 -1 表示完全负相关,1表示完全正相关,0 表示没有线性关系。相关系数的计算公式如下:
r = C o v ( X , Y ) σ X σ Y r = \frac{{{\rm{Cov}}(X,Y)}}{{{\sigma _X}{\sigma _Y}}} r=σXσYCov(X,Y)
其中 σ X {\sigma _X} σX σ Y {\sigma _Y} σY分别是 X X X Y Y Y标准差。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/195080.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

maven篇---第二篇

系列文章目录 文章目录 系列文章目录前言一、什么是Maven的坐标?二、讲一下maven的生命周期三、说说你熟悉哪些maven命令?前言 前些天发现了一个巨牛的人工智能学习网站,通俗易懂,风趣幽默,忍不住分享一下给大家。点击跳转到网站,这篇文章男女通用,看懂了就去分享给你的…

离散型制造业生产管理mes系统介绍

典型的离散制造业主要包括机械、电子、航空、汽车等行业,这些企业既有按订单生产,也有按库存生产,既有批量生产,也有单件小批生产。那么,注重生产计划的制定,生产的快速响应是离散行业MES系统应用的关键。 …

两道面试题秒杀你的C++基础!

大家好,我是光城,今天发两个非常重要的面试题,可以留言区说出你的答案,这两个题目都比较重要,看你能答对不? 1.C中初始化变量有几种方式,各自有什么区别? 或者说Initialization分为哪…

【已验证】SqlBulkCopy 执行批量插入的时候报超时问题-解决办法

把datatable里面的数据插入到数据库,但是数据量大的情况下批量插入会提示超时,所以把datatable的数据分批写入数据库的 using (SqlConnection connection new SqlConnection(ConnectionString)){connection.Open();int pageSize 100000;//SqlBulkCopy大…

已解决:虚拟机集群xsehll连接不上

问题描述: hadoop102能连上,hadoop103、hadoop104无法连接,以前都能连上,今天突然就连不上了 解决方案: 使用ifconfig命令查看有没有ens33 如果没有的话那就证明你的问题和我一样 依次使用以下命令: sys…

MVCC是如何保证隔离性的

之前提到了MVCC可以一定程度上避免幻读,那具体MVCC是咋工作的呢? 需要介绍两个机制:read view和聚簇索引的两个隐藏列 read view 这个就是我们理解的快照,有四个字段,本事务id、活跃事务id列表(包含自己&…

精神衰弱怎么办?如何改变精神衰弱?

精神衰弱也叫神经衰弱,跟个人体质有一定的关系,更多是因为环境因素的长期作用所致,比如长期处于紧张和压力之下,这容易产生精神衰弱。当下有个流行词叫“精神内耗”,这个严重的精神内耗其实同样会导致精神衰弱。 精神…

MySQL 的 NULL 是怎么存储的?

目录 一、MySQL介绍 二、什么是NULL 三、MySQL 的 NULL 是怎么存储的 一、MySQL介绍 MySQL是一种关系型数据库管理系统(RDBMS),它是一种开源软件,由瑞典MySQL AB公司开发,后被Sun Microsystems收购,现在…

产品经理面试问题(四)

今天和大家免费分享产品经理常见的面试题目,含回答思路分析和回答事例。 【资源下载】 这个模板可以在 Axure高保真原型哦 小程序里免费下载 打开小程序后,在文档模板模块,搜索产品经理面试题目,获取下载地址 更多原型模板、视…

【自然语言处理】【大模型】VeRA:可调参数比LoRA小10倍的低秩微调方法

VeRA:可调参数比LoRA小10倍的低秩微调方法 《VeRA:Vector-based Random Matrix Adaptation》 论文地址:https://arxiv.org/pdf/2310.11454.pdf 相关博客 【自然语言处理】【大模型】VeRA:可调参数比LoRA小10倍的低秩微调方法 【自…

jdk1.8 hashmap源码阅读

目录 hashmap 成员变量 hashmap支持null键吗?为什么? 当扩容的时候,所有元素都会重新计算hash值吗? 怎么减少扩容次数 为什么node数组的大小是2的n次? 1.8和1.7的区别 1.8为啥要用红黑树? 扩容机制…

Python:核心知识点整理大全1-笔记

在本章中,你将运行自己的第一个程序——hello_ world.py。为 此,你首先需要检查自己的计算机是否安装了Python;如果没有安装, 你需要安装它。你还要安装一个文本编辑器,用于编写和运行Python 程序。你输入Python代码时…

详解云WAF:免费GOODWAF归来

文前聊心 说说这篇文章的目的: 介绍一下自己的开发升级的项目:GOODWAF,看名字也能看的出来这是一款防火墙,但它不同于现在的软件防火墙,它是一款云WAF防火墙。 其实GOODWAF这个IP概念前两年就存在了,但为什…

34、AD/DA

AD/DA介绍 AD(Analog to Digital):模拟-数字转换,将模拟信号转换为计算机可操作的数字信号 DA(Digital to Analog):数字-模拟转换,将计算机输出的数字信号转换为模拟信号 AD/DA转换…

YoloV8改进策略:Swift Parameter-free Attention,无参注意力机制,超分模型的完美迁移

摘要 https://arxiv.org/pdf/2311.12770.pdf https://github.com/hongyuanyu/SPAN SPAN是一种超分网络模型。SPAN模型通过使用参数自由的注意力机制来提高SISR的性能。这种注意力机制能够增强重要信息并减少冗余,从而在图像超分辨率过程中提高图像质量。 具体来说,SPAN模…

允许root远程连接数据库

开放root远程连接数据库的权限(Linux系统) 环境:centos7,关闭防火墙(没关要开放数据库的端口) 一、进入数据库,查看权限表信息 MariaDB [(none)]> use mysql Reading table information fo…

「Verilog学习笔记」占空比50%的奇数分频

专栏前言 本专栏的内容主要是记录本人学习Verilog过程中的一些知识点,刷题网站用的是牛客网 根据题意7分频,实际上是第一次电平变化经历了4个上升沿3个下降沿,第二次电平变化是4个下降沿3个上升沿,所以用两个计数器就行了。分别对…

web自动化 -- selenium及应用

selenium简介 随着互联网的发展,前端技术不断变化,数据加载方式也不再是通过服务端渲染。现在许多网站使用接口或JSON数据通过JavaScript进行渲染。因此,使用requests来爬取内容已经不再适用,因为它只能获取服务器端网页的源码&am…

专业爬虫框架 -- scrapy初识及基本应用

scrapy基本介绍 Scrapy一个开源和协作的框架,其最初是为了页面抓取 (更确切来说, 网络抓取 )所设计的,使用它可以以快速、简单、可扩展的方式从网站中提取所需的数据。 但目前Scrapy的用途十分广泛,可用于如数据挖掘、监测和自动化测试等领域…

解决websocket集群的session共享问题

在websocket中,服务端主要使用的是session打交道,但是由于session无法实现序列化,不能存储到redis这些中间存储里面,因此这里我们只能把session存储在本地的内存中,那么如果是集群的话,我们如何实现session…