机器学习python实践——数据“相关性“的一些补充性个人思考

在上一篇“数据白化”的文章中,说到了数据“相关性”的概念,但是在统计学中,不仅存在“相关性”还存在“独立性”等等,所以,本文主要对数据“相关性”进行一些补充。当然,如果这篇文章还能入得了各位“看官”的法眼,麻烦点赞、关注、收藏,支持一下!

本文主要想解释两个问题:一个是“不相关”和“独立性”的区别一个是降低数据“相关性”有啥用

一、“不相关”和“独立性”有什么区别

相信很多人对于“相关性”中的“不相关”和“独立性”傻傻分不清,所以先给出结论:不相关不一定独立,独立一定不相关,。至于为什么,先给出私人版的“相关性”和“独立性”的定义,然后再给出一个例子让大家直观感受一下:

“相关性”:数据特征变化趋势始终一致或相反

“独立性”:数据特征之间不存在影响现象

先说明“不相关不一定独立”,举个例子:

比如说医生和律师,医生的工资是由国家发的,每个月医生的工资收入都是固定的,而律师的工资是由律师事务所发的,律师每个月都是在增长的,从这里我们可以看出,医生的工资变化趋势是不增不减,而律师的工资变化趋势是增涨的,两者工资变化明显不存在一致或者相反的变化趋势,所以两者工资收入是不相关的,但是如果律师得了病,只有一名医生能看,这个医生又因为工资老是不涨闹情绪不给律师看病,那么律师势必无法工作,收入也就会暴跌,从这我们就可以看出医生的收入可能会在某种程度上影响到律师收入,这就表明两者是不独立的,即医生工资变化会对律师工资变化产生影响。

上面的例子说明了“不相关不一定独立”,那么下面就对“独立一定不相关”进行说明。

从上面的定义可以看出,“独立性”侧重于“影响”,“相关性”侧重于“趋势”,那么是否存在两个特征独立且相关的情况呢?我的答案是:不存在!!!因为独立意味着“随机”,而且是完全随机,这意味着没有任何规律可以寻找,这样特征之间才能保持互不影响,就好像,你都猜不到我心里想的,你怎么可能跟我同频共振,既然都没有没有规律可循,那么数据特征之间也就不存在“同增同减”或者“一减一增”这样的规律,也就表明数据特征之间不存在一致或相反的变化趋势,即数据特征之间不相关。

二、降低数据“相关性”有啥用

网上看了很多,但是个人感觉最有用的就是:降低数据“相关性”可以降低计算难度,下面举例说明:

比如说,上图中,两数据蓝点的在原始坐标系下的坐标分别是(-1,-1)和(1,1),对他进行进行诸如PCA等去"相关性"的方法降低数据两个特征之间的“相关性”。于是,建立了一个新的坐标系(两红线),新坐标系的横轴就是两点之间的连线,所以在不同坐标系下,同样的两点坐标矩阵就发生了如下的变化:

从上面例子我们可以很直观的看到,对数据进行去“相关性”操作后,数据矩阵零更多了,这也就表明计算难度就降低了,所以降低数据“相关性”可以降低计算难度

本文参考:

马同学 (matongxue.com)

概率问题 独立一定不相关,不独立一定相关,相关一定不独立,不相关不一定独立 是这个关系么_百度知道 (baidu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/27032.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【React】Lodash---groupBy() 分组

例子 _.groupBy([6.1, 4.2, 6.3], Math.floor); // > { 4: [4.2], 6: [6.1, 6.3] }// The _.property iteratee shorthand. _.groupBy([one, two, three], length); // > { 3: [one, two], 5: [three] }思路分析 来源 定义一个名为groupBy的方法,通过扩展Ar…

OpenAI最强大模型ChatGPT-4o,论文降重小技巧,国内直接使用

一、万字论文,从0到1,只需1小时 通过OpenAI5月14日1点发布的最新大模型ChatGPT4o: 1小时即可完成万字论文的编写通过GPT定制的降重大模型“中文论文降重”,2小时即可完成一篇优质的、查重率较低的万字论文。 在ChatGPT4o对话框中…

【全开源】多功能投票小程序源码(Uniapp+ThinkPHP+FastAdmin)

💥**【热门推荐】多功能投票小程序,一键解决你的选择难题!**💥 基于ThinkPHPFastAdminUniapp开发的多功能系统,支持图文投票、自定义选手报名内容、自定义主题色、礼物功能(高级授权)、弹幕功能(高级授权)、会员发布、…

[UUCTF 2022 新生赛]爱丽丝梦境的兔子(古典密码)

题目: U2FsdGVkX19ixL7s5HryOhyL5oSScYGNVBVWlsUMYQwTRniXreqeSp/iTHtkcxt qicNL4xpHc5X34Daat7ixqkZMpU4JV9USOKKTAw9HJfGnoDzFF/JY0gzJpxgmW1X 4nXktQ4J7OM14EMcTrhPDIOfG2VDJr4yViWc/vNS8np1IFeIRXMoWGAJHuI8IOVG tXi2JX6hTseYkJc2LGHJkLQ0WDW67RyhPC3vOwmJHOs/w…

TF-IDF算法:从文本中发现价值的黄金法则

TF-IDF算法 一、简介二、TF-IDF算法原理2.1 词频(TF)2.2 逆文档频率(IDF)2.3 TF-IDF的计算 三、TF-IDF算法应用3.1 搜索引擎3.2 文本分类3.3 信息提取3.4 文本摘要 四、TF-IDF算法的改进4.1、TF-IDF算法的改进4.1.1. 基于词的权重…

OpenGL3.3_C++_Windows(8)

材质&&漫反射,光照贴图 使用struct为材质建立结构体,以便方便管理漫反射贴图是物体的颜色值(纹理)(通过 UV 坐标映射到渲染物体的表面),材质是物体的属性(物体对光的交互&a…

LabVIEW故障预测

在LabVIEW故障预测中,振动信号特征提取的关键技术主要包括以下几个方面: 时域特征提取:时域特征是直接从振动信号的时间序列中提取的特征。常见的时域特征包括振动信号的均值、方差、峰值、峰-峰值、均方根、脉冲指数等。这些特征能够反映振动…

LLM 中什么是Prompts?如何使用LangChain 快速实现Prompts 一

LLM 中什么是Prompts?如何使用LangChain 快速实现Prompts 一 Prompt是一种基于自然语言处理的交互方式,它通过机器对自然语言的解析,实现用户与机器之间的沟通。 Prompt主要实现方式是通过建立相应的语料库和语义解析模型,来将自…

Spring Boot中的RESTful API详细介绍及使用

在Spring Boot中,RESTful API的实现通过控制器类中的方法和特定的注解来完成。每个注解对应不同的HTTP请求方法,并通过处理请求参数和返回响应来实现不同的操作。 下面将详细解释RESTful API中的各个方面,包括GetMapping, PostMapping, PutMa…

「实战应用」如何用DHTMLX将上下文菜单集成到JavaScript甘特图中(一)

DHTMLX Gantt是用于跨浏览器和跨平台应用程序的功能齐全的Gantt图表。可满足项目管理应用程序的所有需求,是最完善的甘特图图表库。 DHTMLX Gantt是一个高度可定制的工具,可以与项目管理应用程序所需的其他功能相补充。在本文中您将学习如何使用自定义上…

【Numpy】一文向您详细介绍 np.sqrt()

【Numpy】一文向您详细介绍 np.sqrt() 下滑即可查看博客内容 🌈 欢迎莅临我的个人主页 👈这里是我静心耕耘深度学习领域、真诚分享知识与智慧的小天地!🎇 🎓 博主简介:985高校的普通本硕,曾…

vsto excel 快速查找所有标黄的格子

在 VSTO (Visual Studio Tools for Office) 加载项中,你可以使用 C# 代码快速查找并处理 Excel 工作表中所有被标记为黄色的单元格。以下是一个示例代码,展示如何遍历工作表并查找所有背景颜色为黄色的单元格。 ### 示例代码 using System; using Syst…

辽宁省实验中学2024暑假信息学体验活动测试试卷解析

辽宁省实验中学2024暑假信息学体验活动测试试卷解析 一、客观题测试一:选择题(每个题5分,不定选项)1. 在 C++程序中,下列标识符都是合法的是() A. _key,3ab,dc B. _ba1,in,ac C. int,3c,bc 2. 下方代码输入 3 4,输出是:( ) #include<iostream> using namespace …

AI日报|Luma推出AI视频模型,又一Sora级选手登场?SD3 Medium发布,图中文效果改善明显

文章推荐 AI日报&#xff5c;仅三个月就下架&#xff1f;微软GPT Builder出局AI竞争赛&#xff1b;马斯克将撤回对奥特曼的诉讼 谁是最会写作文的AI“考生”&#xff1f;“阅卷老师”ChatGPT直呼惊艳&#xff01; ⭐️搜索“可信AI进展“关注公众号&#xff0c;获取当日最新…

输出数据到excel中

% 定义数据 names1 {ff, jj, aa, bb}; % Example name1 data names2 {tt, yy, cc, dd}; % Example name2 data corrfits [2, 4, 6, 8]; % Example corrfit data % 获取数据的长度 n length(names1); % 初始化一个单元数组来存储所有数据 data cell(n, 3); % 使用循环…

Flink 命令行提交、展示和取消作业

在Flink中&#xff0c;可以通过命令行提交、展示和取消作业。以下是如何使用命令行操作Flink作业的示例&#xff1a; 提交作业 ./flink run -c com.example.MainClass /path/to/your/job.jar [jobArgs]这里&#xff0c;run是提交作业的命令&#xff0c;-c后面跟着的是主类的全…

深入理解MyBatis XML配置文件

MyBatis是一款优秀的持久层框架&#xff0c;简化了数据库操作的复杂性&#xff0c;提高了开发效率。在MyBatis中&#xff0c;XML配置文件扮演了重要角色&#xff0c;用于配置数据源、事务管理、SQL映射等内容。本文将详细介绍MyBatis的XML配置文件&#xff0c;帮助读者更好地理…

Three.js的渲染器:WebGLRenderer、CSS3DRenderer、SVGRenderer

我们都晓得渲染器是负责将场景中的3D对象转换为2D图像&#xff0c;然后显示在屏幕上&#xff0c;three.js内置了多种渲染器&#xff0c;来应对不同的和需求&#xff0c;贝格前端工场老司机&#xff0c;简要和大家分享下。 一、渲染器的定义和作用 在Three.js中&#xff0c;渲…

凯伦股份中标中铁置业2024-2026年度防水材料框架协议采购项目!

近日&#xff0c;凯伦股份收到了中铁置业集团有限公司发来的中标通知书&#xff0c;确定凯伦公司为其2024年度-2026年度防水材料框架协议采购项目的中标人&#xff0c;正式成为中铁置业集团的合作供应商。 中铁置业集团有限公司是中国中铁股份有限公司的全资子公司&#xff0c;…

【postman接口测试工具的安装和使用】

Postman是一个强大的接口测试和开发工具&#xff0c;支持HTTP协议的所有请求方式&#xff0c;如GET、POST、PUT、DELETE等&#xff0c;并允许用户模拟各种HTTP请求[1][2]。以下是关于Postman的安装和使用方法的详细介绍&#xff1a; 安装Postman 访问官方网站&#xff1a; 打开…