【机器学习】4. 相似性比较(二值化数据)与相关度(correlation)

SMC

Simple Matching Coefficient 评估两组二进制数组相似性的参数
SMC = (f11 + f00) / (f01+f10+f11+f00)
其中,f11表示两组都为1的组合个数,f10表示第一组为1,第二组为0的组合个数。

这样做会有一个缺点,假设是比较稀疏的数据,如今天去哪一个地区,地区有成千上万个,但是去的只有一个地区。那么就会导致f00非常的大,如此计算的结果SMC必然很大,但是能够代表两组数据高度相关吗?这并不合理。

Jaccard

由于SMC不适配某些场景,Jaccard应运而生。
Jaccard剔除了f00,从而避免了f00过大导致的数值偏差。
J = f11 / (f01 + f10 + f11)

Cosine

  • 适用于二值化数据,也适用于非二值化数据。
  • 广泛用于文档的分类
    c o s ( A , B ) = A ∗ B ∣ ∣ A ∣ ∣ ∣ ∣ B ∣ ∣ cos(A,B) = \frac{A * B}{||A|| ||B||} cos(A,B)=∣∣A∣∣∣∣B∣∣AB
    ||A|| L2范式,即上一节讲的欧氏距离

A = [1 , 2, 3]
B = [4, 5, 6]
A*B = 1 * 4 + 2 * 5 + 3 * 6
||A|| = sqrt (1 * 1 + 2 * 2 + 3 * 3)
||B|| = sqrt (4 * 4 + 5 * 5 + 6 * 6)

0°相关
90°不相关
在这里插入图片描述
离的远则不相似,贴得近则相似

Correlation

c o r r ( X , Y ) = c o v a r ( x , y ) s t d ( x ) s t d ( y ) corr(X,Y) = \frac{covar(x,y)}{std(x)std(y)} corr(X,Y)=std(x)std(y)covar(x,y)
c o v a r ( x , y ) = 1 n − 1 ∑ k = 1 n ( x k − m e a n ( x ) ) ( y k − m e a n ( y ) ) covar(x,y) = \frac{1}{n-1}\sum^n_{k=1}(x_k - mean(x))(y_k - mean(y)) covar(x,y)=n11k=1n(xkmean(x))(ykmean(y))
s t d ( x ) = ∑ k = 1 n ( x k − m e a n ( x ) ) 2 n − 1 std(x) = \sqrt{\frac{\sum^n_{k=1}(x_k - mean(x))^2}{n-1}} std(x)=n1k=1n(xkmean(x))2

  • mean: 均值
  • 范围[-1,1] -1是负相关, 0 是不相关, 1 是正相关

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/52158.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

<数据集>流水线纸箱识别数据集<目标检测>

数据集格式:VOCYOLO格式 图片数量:1395张 标注数量(xml文件个数):1395 标注数量(txt文件个数):1395 标注类别数:2 标注类别名称:[GreenCarton,RedCarton] 序号类别名称图片数框数1GreenBox131728482R…

解析XML格式数据

解析XML格式数据主要涉及到将XML文档转换为程序可以处理的数据结构,这通常通过使用特定的解析技术来实现。在Java中,解析XML数据主要有四种方法,分别是DOM(Document Object Model)、SAX(Simple API for XML…

力扣 | 最长公共子序列 | 动态规划 | 最长公共子序列长度、最长公共子序列

文章目录 一、1143. 最长公共子序列二、求最长公共子序列三、变式一、1035. 不相交的线二、1312. 让字符串成为回文串的最少插入次数 一、1143. 最长公共子序列 LeetCode:1143. 最长公共子序列 这是一道典型的二维动态规划问题,甚至面试都能被面到。 这…

下载文件设置响应头

参考链接:关于URL编码 1、概述 一般要对文件名称编码(主要是中文名称和特殊符号编码的问题),不然下载的时候会出异常,异常在后面 package com.mocha.order.util;import com.mocha.order.constant.BrowserConstant; …

【15】bat脚本备份windows的部署文件

1、请安装D:\7-Zip\7z.exe压缩工具,sshfs工具 2、通过挂载远程服务器存储文件夹,将部署文件压缩到指定备份路径 3、指定备份路径只保存20个文件,超过定期删除多余的 4、部署文件备份完成后,卸载远程存储文件夹 @echo off setlocal:: 备份web、mysql、redis、nginx :: folde…

Linux buffer/cache

清除方法 echo 1 > /proc/sys/vm/drop_caches # 仅清除页面缓存 echo 2 > /proc/sys/vm/drop_caches # 清除目录项和inode echo 3 > /proc/sys/vm/drop_caches # 清除页面缓存、目录项以及inode 下面了解一下这几种都是什么,简单理解,目录项和inode&…

C#关于多线程的线程问题

using System.Text; ​ namespace 平时练习8._19day06 {internal class Program{static async Task Main(string[] args){Console.WriteLine(Thread.CurrentThread.ManagedThreadId );StringBuilder sb new StringBuilder();for (int i 0; i < 10000; i){sb.Append("…

坚持绿色发展的上海智算中心,稳步推进中

自今年年初正式封顶以来&#xff0c;云端股份上海智算中心在外墙及内部的建设进展顺利。这座智算中心地理位置优越&#xff0c;正逐步成为推动数字经济发展的重要力量。 位置优势 云端股份上海智算中心毗邻智慧岛数据产业园&#xff0c;是崇明区目前建设的唯一一座智算中心&am…

多功能秒达工具箱全开源源码,可自部署且完全开源的中文工具箱

简介&#xff1a; 多功能秒达开源工具箱源码&#xff0c;&#xff0c;可自部署且完全开源的中文工具箱&#xff0c;永远的自由软件&#xff0c;轻量级运行&#xff0c;全平台支持&#xff08;包括ARMv8&#xff09;&#xff0c;完全类似 GPT 的支持&#xff0c;与高效的 UI 高…

前端构建工具 webpack与vite对比

一、webpack构建原理 Webpack的构建过程大致为&#xff1a; 1.从入口文件开始分析依赖&#xff0c; 2.递归解析所有依赖模块&#xff0c;生成依赖图&#xff0c; 3.调用Loader转换文件内容&#xff0c; 4.打包所有模块输出优化后的静态资源 。 webpack工作特点&#xff1a; …

[JS]精选面试题-2

1.谈⼀谈你理解的函数式编程 函数式编程&#xff08;Functional Programming&#xff09;是一种编程范式&#xff0c;通过函数的组合实现程序的功能 核心特性 函数是第一等公民&#xff1a;在函数式编程中&#xff0c;函数不仅可以被调用&#xff0c;还可以像其他值&#xf…

简化登录流程,助力应用建立用户体系

随着智能手机和移动应用的普及&#xff0c;用户需要在不同的应用中注册和登录账号&#xff0c;传统的账号注册和登录流程需要用户输入用户名和密码&#xff0c;这不仅繁琐而且容易造成用户流失。 华为账号服务&#xff08;Account Kit&#xff09;提供简单、快速、安全的登录功…

一文5000字从0到1使用Jmeter实现轻量级的接口自动化测试

接口测试虽然作为版本的一环&#xff0c;但是也是有一套完整的体系&#xff0c;有接口的功能测试、性能测试、安全测试&#xff1b;同时&#xff0c;由于接口的特性&#xff0c;接口的自动化低成本高收益的&#xff0c;使用一些开源工具或一些轻量级的方法&#xff0c;在测试用…

怎么解决小程序的异步请求问题

解决小程序的异步请求问题通常涉及对异步操作的有效管理&#xff0c;以确保数据的正确加载和显示。在小程序中&#xff0c;最常见的异步操作包括网络请求、文件操作等。以下是一些解决小程序异步请求问题的方法&#xff1a; 使用Promise&#xff1a; 小程序中的wx.request接口…

【Kotlin设计模式】Kotlin实现工厂模式

前言 工厂模式&#xff08;Factory Pattern&#xff09;是一种创建型设计模式&#xff0c;提供一个创建对象的接口&#xff0c;不暴露对象的创建过程。它将实例化对象的任务交给子类或具体实现&#xff0c;从而使得客户端代码与具体类解耦。 工厂模式主要分为以下三类&#xf…

图像处理之:Video Processing Subsystem(一)

免责声明&#xff1a; 本文所提供的信息和内容仅供参考。作者对本文内容的准确性、完整性、及时性或适用性不作任何明示或暗示的保证。在任何情况下&#xff0c;作者不对因使用本文内容而导致的任何直接或间接损失承担责任&#xff0c;包括但不限于数据丢失、业务中断或其他经济…

ucharts图表滚动

背景&#xff1a; 使用ucharts绘制折线图&#xff0c;当数据项多的时候&#xff0c;横坐标显示的文字会重合&#xff0c;故想到滑动 项目代码使用的是原生的代码&#xff0c;而非ucharts的组件&#xff1a; <template><view><canvas canvas-id"chartsLi…

各类软件历史版本的下载地址

postman,notpad等 https://www.filehorse.com/software-developer-tools/https://www.filehorse.com/software-developer-tools/

pdf查看密码

pdf有两种密码方式&#xff0c;一种是打开后进入文件内容页面后需要密码才能进行修改等操作&#xff0c;网上有很多方式进行移除密码操作&#xff0c;第二种是打开就需要密码&#xff0c;我这里简单记录一个暴力破解的方式&#xff0c;仅供参考 import PyPDF2 import itertools…

FreeRTOS学习:内存管理

FreeRTOS内存管理简介 在使用 FreeRTOS 创建任务、队列、信号量等对象的时候&#xff0c; FreeRTOS 一般都提供了两种方法&#xff0c; 动态方法创建&#xff1a;自动地从 FreeRTOS 管理的内存堆中申请所创建对象所需的内存&#xff0c;在对象被删除后&#xff0c;又可以将这…