数据科学中的 10 个重要概念和图表的含义

e7cdf6840d6bcf4c7ab4be97d790fc39.png

大数据文摘转载自数据派THU

来源:DeepHub IMBA

“当算法给你一条曲线时,一定要知道这个曲线的含义!”

1、偏差-方差权衡

这是一个总是在机器学习最重要理论中名列前茅的概念。机器学习中的几乎所有算法(包括深度学习)都努力在偏差和方差之间取得适当的平衡,这个图清楚地解释了二者的对立关系。

f722213a0d168368c8ecbfbc6b9af546.png

543d113aef3262266da9ce5845dd939a.png

2、基尼不纯度与熵

Gini(缺乏同质性的度量)和 Entropy(随机性的度量)都是决策树中节点不纯度的度量。

d6ab758f2f9c28576368b7142e49b443.png

df790f212e1f0f279872ed093a35d4e7.png

4c047bf2b8eb5f0acedaff23e4005300.png

对于这两个概念更重要的是要了解它们之间的关系,以便能够在给定的场景中选择正确的指标。

基尼不纯度(系数)通常比熵更容易计算(因为熵涉及对数计算)

3、精度与召回曲线

精度-召回曲线显示了不同阈值的精度和召回率之间的权衡。曲线下面积大代表高召回率和高精度,其中高精度与低误报率相关,高召回率与低误报率相关。

它可以帮助我们根据需要选择正确的阈值。例如,如果我们的目标是减少类型 1 错误,我们需要选择高精度,而如果我们的目标是最小化类型 2 错误,那么我们应该选择一个阈值,使得召回率很高。

e0275eb3e9aa3013d5b80a885d4a005e.png

精度分母是一个变量:即假阳性(归类为阳性的负样本)每次都会变化。

召回分母是一个常数:它代表真值的总数,因此将始终保持不变。

这就是为什么下图 Precision 在结束时有一个波动,而召回始终保持平稳的原因。

380251215547592afbeb898ac07f2182.png

4、ROC曲线

ROC 曲线是显示分类模型在所有分类阈值下的性能的图表。

这条曲线绘制了两个参数:

真阳性率误报率

b9f27003f6f191cf5356cf707e4dc127.png

此曲线下的面积(称为 AUC),也可用作性能指标。AUC 越高,模型越好。

bca905361da67fda04856688c9862dce.png


5、弯头曲线(K-Means)

用于K-means算法中最优簇数的选择。

WCSS(簇内平方和)是给定簇中每个点与质心之间的平方距离之和。当我们用 K(簇数)值绘制 WCSS 时,该图看起来像一个肘部(弯头)。

随着聚类数量的增加,WCSS 值将开始下降。K = 1时WCSS值最大

5d2bcb1c504b2203af5f838ef245dbcc.png

6、Scree Plot (PCA)

它帮助我们在对高维数据执行主成分分析后,可视化每个主成分解释的变异百分比。

为了选择正确数量的主成分来考虑我们的模型,我们通常会绘制此图并选择能够为我们提供足够好的总体方差百分比的值。

8884eff35be195b40ccb720c93db47a3.png

24d0c3e8278e34ce83f1abe2683d763d.png

e367f4c0d0bc0e7ec8f581e0bbb40e83.png


7、线性和逻辑回归曲线

7f89a8057598aadeee2ed4b00f6eb65c.png

对于线性可分数据,我们可以进行线性回归或逻辑回归,二者都可以作为决策边界曲线/线。

但是,在逻辑回归的情况下,由于通常只有 2 个类别,因此具有线性直线决策边界可能不起作用,在一条直线上值从低到高非常均匀地上升,因为它不够陡峭在值突然上升后会得到很多临界的高值或者低值,最终会错误分类。因此,“边界”区域,即概率从高到低转变的区域并不真正存在。所以一般情况下会应用 sigmoid 变换将其转换为 sigmoid 曲线,该曲线在极端情况下是平滑的,在中间几乎是线性的。

5a7aa557848c45d1d97579b2808a90f4.png

8、支持向量机(几何理解)

3e68204c9dba370d2b461d29c872443e.png

9、标准正态分布规则(z -分布)

均值为0,标准差为1的特殊正态分布。

f3b49905a9bd1460e6576fb10a07bffc.png

经验法则指出,按照正态分布观察到的数据中有 99.7% 位于平均值的 3 个标准差以内。

根据该规则,68% 的数据在一个标准差内,95% 在两个标准差内,99.7% 在三个标准差内。

10、学生 T 分布

T 分布(也称为学生 T 分布)是一系列分布,看起来几乎与正态分布曲线相同,只是更短和更宽/更胖。

当我们有较小的样本时,我们使用 t 分布而不是正态分布。

样本量越大,t 分布越像正态分布。事实上,在 30 个样本之后,T 分布几乎与正态分布完全一样。

e3974841d3c337836d1a0e558957662c.png

最后总结

我们可能会遇到许多小而关键的概念,这些概念构成了我们做出决定或选择正确模型的基础。本文中提到的重要概念都可以通过相关的图表进行表示,这些概念是非常重要的,需要我们在看到其第一眼时就知道他的含义,如果你已经对上面的概念都掌握了,那么可以试试说明下图代表了什么:

da0f77527ce73ca0197aa805155688a9.gif

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

8120cee05b3210ba0c75dd49fb7a6b84.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/482026.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Java总结:Spring5框架(1)

Spring5框架(1) 一:什么是Spring? Spring框架是由于软件开发的复杂性而创建的。Spring使用的是基本的JavaBean来完成以前只可能由EJB完成的事情。然而,Spring的用途不仅仅限于服务器端的开发。从简单性、可测试性和松耦合性角度而…

专访|79岁图灵奖获得者迈克尔·斯通布雷克谈“数字经济”与“元宇宙”

迈克尔斯通布雷克(Michael Stonebraker)被誉为“世界上最重要的数据库专家之一”,是数据库领域的第4位图灵奖得主来源:数据观撰稿:黄玉叶编辑:蒲蒲如果说硅是未来的新型石油,那么数据就好比新型…

Windows下如何搭建Gradle环境?

QUESTION:Windows下如何搭建Gradle环境? 目录 QUESTION:Windows下如何搭建Gradle环境? ANSWER: 1.开发环境 2.安装步骤 (1)下载最新的Gradle压缩包 (2)解压下载的压缩包到指定位置,比如: (3)配置环境变量 3.测试配置是否成功 ANSWER: 1.开发环境…

2029年会实现通用人工智能吗?Gary Marcus「叫板」马斯克:赌十万美元如何?

来源:AI科技评论作者:王玥编辑:陈彩娴5月30日,世界级红人埃隆马斯克(Elon Musk)发了一条推文,称:2029年是关键的一年,如果那时候我们还没有实现通用人工智能(…

Java总结:SpringBoot的使用cmd命令进行Gradle构建

QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 目录 QUESTION:SpringBoot的使用cmd命令进行Gradle构建 ANWSER: 一:下载SpringBoot工程 二:CMD命令构建gradle 一:下载SpringBoot工程 打开:https://spring.io/pr…

Python之父Guido Van Rossum:炒作之火或将“摧毁” Web 3

来源:Yin Long Ma译者:核子可乐策划:刘燕去中心化互联网压根没戏,Web 3 开发者都是小丑:关于 Web 3,我们到底该相信什么?去中心化互联网是怎么回事?互联网源自 Web 1.0 时代&#xf…

Python:使用matplotlib进行绘图时中文变成乱码的解决

QUESTION:Python:使用matplotlib进行绘图时中文变成乱码的解决? ANSWER: 在绘图前加上下面的代码: plt.rcParams[font.sans-serif][SimHei] #用来正常显示中文标签 plt.rcParams[axes.unicode_minus]False #用来正常显示负号例子: from matplotlib import pyplot as plt pl…

两篇Nature最新研究成果:令细胞衰老的基因突变作用机制的新理论

来源:生物通研究人员发现,基因突变在人的一生中是缓慢积累的,从而导致70岁后血液形成发生巨大变化,这为衰老提供了一种新的理论。一项新的研究揭示了贯穿一生、在血液干细胞中缓慢积累的基因变化可能是导致70岁后血液生产发生巨大…

美国陆军:2045年20项新兴科技趋势报告

来源:硅谷智库 这份报告是美国陆军公布的一份长达35页的《2016-2045年新兴科技趋势报告》。它是美国在过去几年由政府机构、咨询机构、智囊团、科研机构等发表的32份科技趋势相关研究调查报告的基础上提炼形成的。通过对近700项科技趋势的综合比对分析&#xff…

利用宇宙的能力来处理数据!「物理网络」远胜深度神经网络

来源:AI科技评论作者:Charlie Wood编译:王玥编辑:岑峰轮到物理学家来揭示神经网络的本质了:他们在尝试让宇宙为我们处理数据。在一个隔音的板条箱里有着一个世界上最糟糕的神经网络。在看到数字6的图像后,这…

银行家算法总结及实现

QUESTION:银行家算法总结及实现? 目录 QUESTION:银行家算法总结及实现? ANSWER: 一:银行家算法介绍 1.1什么是银行家算法 1.2背景 1.3数据结构 1.4算法分析 二:安全状态和不安全状态 2.1概念 2.2安全性检查 三:算法实现 3.1流…

用10000个电极窃听大脑

来源:大数据文摘作者:BARUN DUTTA原文标题:EAVESDROPPING ON THE BRAIN WITH 10,000 ELECTRODES让我们想象一台由 860 亿个交换机组成的计算机:其通用智能足以构建一个航天文明——但重量仅为1.2公斤,仅消耗20 瓦的功率…

四项研究,人工智能助力观测检测技术

来源:ScienceAI编辑:萝卜皮目录研究人员使用机器学习来加快微塑料的计数科学家利用人工智能增强 X 射线数据分析从显微镜图像中提取特征的弱监督机器学习模型两体微透镜系统中普遍存在的统一简并研究人员使用机器学习来加快微塑料的计数微塑料无处不在—…

电脑恢复删除文件及注册表实现

QUESTION:电脑恢复删除文件及注册表实现 目录 QUESTION:电脑恢复删除文件及注册表实现 ANWSER: 一:恢复文件 二:修复注册表 ANWSER: 一:恢复文件 在删除了一些C盘的文件后,导致电脑一些设置不能使用,出现文件的…

图灵测试是人工智能的标准吗?

来源:赛先生编者按科学就是一个可以被证伪的学说。任何一个科学论述,都要能够被实验检验。比如说,要科学地解释定义什么是自我意识,其本质就是设计一个实验。比如观察动物在镜子里看到自己时候的行为,是寻找镜子后面的…

科学家在类脑芯片上实现类似LSTM的功能,能效高1000倍

来源:机器学习研究组订阅格拉茨技术大学的计算机科学家在 Nature 子刊上发表的一篇论文表明,他们找到了一种在神经形态芯片上模拟 LSTM 的方案,可以让类脑神经形态芯片上的 AI 算法能效提高约 1000 倍。随着智能手机的普及,手机游…

人类为什么活得这么累?Nature论文解开谜底:人总是选择做加法来解决问题

来源:【iNature】想象一座由乐高积木制成的桥。一侧有三个支撑件,另外两个。你将如何稳定这座桥?一项新的研究表明,大多数人会添加一块,这样每边都有三个支撑。但是为什么不移除一块,让每一侧都有两个支撑呢…

研究速递:使用AI应对腐败的潜力和风险

来源:Peter东腐败是当今社会面临的一大顽疾,近年来,已有一些尝试,通过人工智能的方法应对腐败。自然机器智能的观点论文:“使用人工智能来对抗腐败的前景和危险”,指出相比自上而下的使用AI应对腐败&#x…

Python中出现:RunTimeError:implement_array_function method already has a docstring.异常解决

QUESTON:Python中出现:RunTimeError:implement_array_function method already has a docstring.异常解决 ANSWER: 在网上查了一上午,发现写的在我这都没有解决问题,于是我费尽心机自己动手解决。 我在cmd命令行将本机上的numpy卸载后,重新…

谷歌背后的数学

来源:卢昌海作者:赛先生1引言在如今这个互联网时代, 有一家公司家喻户晓——它自 1998 年问世以来, 在极短的时间内就声誉鹊起, 不仅超越了所有竞争对手, 而且彻底改观了整个互联网的生态。这家公司就是当今…