深度学习可以与大数据分手吗?

小夕:hi,路人~你知道机器学习中数据的维度太高会带来什么问题吗?

路人己:此时,如果样本量不足,会容易过拟合啊~

小夕:为什么呢?

路人己:这还有为什么?

小夕:( ̄∇ ̄)



路人己:不对啊,你的标题不是深度学习与大数据吗?怎么问起这个来了?

小夕:不要急哦,在小夕带你深度解析“为什么高维数据会带来灾难?”后,一切将迎刃而解啦。

对于一些已经实践过机器学习算法的同学,一般都会知道上面路人己的说法。但是有没有同学去探究过这个现象背后的原因呢?也就是说,为什么训练样本(数据)的维度太高的情况下,会导致很难训练出满意的机器学习模型呢?

 

简洁来说,两大原因:Bellman的维数灾难和Hadamard的不适定问题。

Bellman的维数灾难

我们知道,从概率统计的观点来看,数据的每个特征都可以认为是一个服从某种分布的随机变量。(因此一个具有m个样本、每个样本有n维的数据集就可以认为是一个n维随机变量的m个采样点)

 

基于上述理解,小夕以该n维随机变量服从高斯分布为例进行讲解。(高斯分布就是正态分布)

 

高中时,我们接触的高斯分布的形状一般是这样的(偷了个懒,从《模式分类》上找了个图:

 

 这是两个一维高斯分布的情况(请自行删去一个...),可以看到,大部分数据都集中在某点的两侧(该点即该随机变量的期望μ,99.7%的数据集中在(μ-3σ, μ+3σ)的范围内)

 

容易想象到,二维的时候是这样的(两个二维高斯分布):

  

也就是立体的看,是座尖峰。如果投影到二维平面上,也就是从上往下看的话,是一个圆(上图的底部已画出)。可以看到,大部分数据都集中在圆心的不远处。

 

而三维呢?可以想象到,比圆升高一维,那就是球啦。

 

 大部分数据依然很集中!集中在球心不远处。

 

四维呢?甚至五维呢?看二维和三维的情况,到了四、五维的时候也应该是一个圆圆的、球球的东西,这个东西被称为“超球”。(同样的道理,直线->平面->超平面;二次曲线(双曲线)->二次曲面->超二次曲面)

 

如果100维呢?依然是这样吗???出!问!题!了!

 

当维数足够高时,会产生空空间现象(empty space phenomenon),即高维空间的本质是稀疏空间。

 

因此,当维数显著增加时,样本集的分布会越来越多的向高斯函数的边界(也就是3σ以外)移动!而不再是集中在中间了!换句话说,对于高维的样本集,大部分数据将分布在超球的外壳,而不是超球的球心!

 

显然,这就导致高维情况下,我们的机器学习模型很难去描述该空间的“形状”和“各个点的密度”(本来在低维情况下通过期望μ和标准差σ很好描述的高密度区域,到了高维情况却可能完全没有了样本!而本来密度很低的辽阔区域却散布着样本集的大部分!你让我如何去描述嘛!没有描述就没法分类和识别啊喂)

 

所以,还抱有一丝幻想的话,就要大量增加数据样本!才有可能去描述如此空虚的空间!以怎样的速率增加呢?以指数数量级!但是,仅仅是大量增加样本就可以吗?问题真的如此简单?

 

还有更加严重的灾难!

 

Hadamard的不适定问题

这部分讲解会用到一点点泛函分析中的知识。泛函分析可以简单理解为在无限维空间上,研究函数的函数的数学学科。但是没有学过的同学也不用担心,下面小夕会将其强扯到我们熟悉的机器学习问题上。

 

Hadamard提出在某些情况下,求解线性算子方程Af=F,f∈F的问题(接地气的类比:这里的A可以认为是手头的样本集,F可以认为是我们要拟合的自然模型,也就是数据的真实分布模型,而f可以认为是我们要根据样本集来训练的机器学习模型),即使方程存在唯一解,如果方程右边有一个微小变动,也会导致解有很大的变化!即导致不适定问题。而我们根据高维数据集来估计机器学习模型的场景正符合这个场景!也就是会产生不适定问题!

 

这意味着什么呢?意味着如果我们手头的样本集的规模并没有大到可以描述自然模型,也就是并没有满足大数据的定义(精确的定义见这篇文章),那么,哪怕我们的数据集只是跟自然模型差一点点了,就差一点点就可以完全描述自然模型了,那!也!不!行!这将导致解有很大的变化!也就是将导致我们训练出的机器学习模型f将会有很大的变化!或者说有很大的误差!也就是说训练出的模型对于未知数据的表现会很差劲!即攻城狮口中的过拟合了!

结论

高维情况下,Bellman维数灾难中提到的空空间问题使得高维空间非常难以描述,哪怕使用非常多的样本勉强描述了,Hadamard提到的不适定问题依然将导致高维数据训练出的机器学习模型效果很差(即泛化能力很弱),出现所谓的过拟合。

 

所以在高维情形下的唯一解是?

 

严格意义上的大数据。(注意不是媒体口中的假大数据,严格意义上的大数据,其规模和复杂度必须达到可以描述自然模型的程度)

所以

深度学习意味着什么呢?意味着作为机器学习模型的神经网络很深很复杂。

神经网络很深很复杂意味着什么呢?意味着要训练的参数很多。

参数很多意味着什么呢?意味着数据的维度很高。

维度很高意味着什么呢?意味着本文所讲的结论。

 

参考文献:

毕华, 梁洪力, 王珏. 重采样方法与机器学习[J]. 计算机学报, 2009,32(5): 862-877.

Duda R O, 杜达, Hart P E, et al. 模式分类[M]. 机械工业出版社, 2003.

Bellman R. Adaptive control processes: a guided tour[J]. 1961.

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481263.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

集群化:中国基础研究发展模式的转型方向

来源:《学术前沿》作者:李侠2020年,科技部等五部门联合制定《加强“从0到1”基础研究工作方案》,旨在贯彻落实《国务院关于全面加强基础科学研究的若干意见》,其中明确指出,切实解决我国基础研究缺少“从0到…

各种损失函数比较-带你斩获offer

损失函数(Loss function)是用来估量你模型的预测值 f(x)f(x)值。2. 常用损失函数 常见的损失误差有五种: 1. 铰链损失(Hinge Loss):主要用于支持向量机(SVM) 中; 2. 互…

如果你跟夕小瑶恋爱了...(上)

如果...如果...有一天...你追到了女神夕小瑶...并且与她恋爱了...(想说“没有如果”的路人请自觉狗带( ̄∇ ̄))小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情:化妆-吃饭-聊天-自习-上课-要…

「返老还童」梦想成真?「NMN教父」争议研究将登陆科学顶刊

来源:机器之心逆转衰老,我们终于有了新方法?一项为时13年的研究最近又有了新的突破,事关人类最在意的问题:衰老理论。12月19日,哈佛大学遗传学教授David Sinclair在社交网络上宣布有关人类衰老研究的最新突…

对抗思想与强化学习的碰撞-SeqGAN模型原理和代码解析

GAN作为生成模型的一种新型训练方法,通过discriminative model来指导generative model的训练,并在真实数据中取得了很好的效果。尽管如此,当目标是一个待生成的非连续性序列时,该方法就会表现出其局限性。非连续性序列生成&#x…

如果你跟夕小瑶恋爱了...(下)

AB派在上一篇文章中,你成功的将“挽回夕小瑶”的任务卡进了隐马尔可夫模型(HMM)中。那么我们来规范化的整理一下已经有的信息和需要计算得到的信息。还记得这两个图嘛?这就是我们建立好的模型。(隐状态的转移图&#x…

史上最简单的隐马尔可夫模型讲解

如果... 如果...有一天...你追到了女神夕小瑶...并且与她恋爱了... (想说“没有如果”的路人请选择狗带( ̄∇ ̄)) 小夕的生活很规律的哦,小夕每天都会依次经历且仅仅经历以下6件事情: 化妆-吃饭-聊天-自习-上…

睡着了也在学习!Nature最新研究揭示运动记忆从何而来

来源:生物通Steph Curry罚球时,他的大脑会利用运动记忆。现在,加州大学旧金山分校(UCSF)的研究人员已经展示了这种类型的记忆是如何在睡眠期间得到巩固的,当大脑处理白天的学习,使做某事的物理行为成为潜意识时。Karun…

数据结构:堆(Heap)

数据结构&#xff1a;堆&#xff08;Heap&#xff09; <!-- 文章内容 --><div data-note-content"" class"show-content"><div class"show-content-free"><p>堆就是用数组实现的二叉树&#xff0c;所有它没有使用父指针…

BAT机器学习面试1000题系列

1、本文的内容全部来源于七月在线发布的BAT机器学习面试1000题系列&#xff1b; 2、文章中带斜体的文字代表是本人自己增加的内容&#xff0c;如有错误还请批评指正&#xff1b; 3、原文中有部分链接已经失效&#xff0c;故而本人重新加上了新的链接&#xff0c;如有不当&…

拉马努金:“与神对话”的数学天才

来源&#xff1a;微信公众号“图灵教育”撰文&#xff1a;[英] 马库斯杜索托伊翻译&#xff1a;柏华元当哈代和利特尔伍德步履维艰地穿越陌生的黎曼图景时&#xff0c;在5000英里外的印度马德拉斯港务局内&#xff0c;一个名叫斯里尼瓦瑟拉马努金的年轻办事员被素数的神秘莫测吸…

浅入深出被人看扁的逻辑回归!

好像在各种机器学习入门教程中&#xff0c;逻辑回归模型&#xff08;Logistic/Logit Regression&#xff09;经常被拿来作为入门的机器学习模型&#xff0c;比如我家的Andrew Ng就是这样做的。看起来&#xff0c;逻辑回归模型实在太简单&#xff0c;甚至容易被认为是一个拍脑袋…

全球Web3技术产业生态发展报告(2022年)

来源&#xff1a;中国信息通信研究院编辑&#xff1a;蒲蒲Web3不只是互联网应用层的简单创新&#xff0c;可能会带来互联网体系架构整体性演进和系统性升级。党中央、国务院高度关注下一代互联网创新发展&#xff0c;在关键核心技术突破、新型基础设施建设、融合创新应用赋能等…

算法工程师笔试 -剑指offer-习题详细解答

说明 主要编程语言为 C/C涉及字符串的问题可能会使用 Python题目编号以原书为准&#xff0c;如“面试题 3&#xff1a;数组中重复的数字” 因为题目不多&#xff0c;所以就不做分类了 所有代码均通过 OJ 测试 在线 OJ 地址&#xff1a;剑指Offer_编程题 - 牛客网 Reference 《…

深入深出Sigmoid与Softmax的血缘关系

缘起逻辑回归逻辑回归模型是用于二类分类的机器学习模型&#xff08;不要说逻辑回归可以做多类分类啊喂&#xff0c;那是二类分类器的组合策略问题&#xff0c;而与逻辑回归分类器本身的构造没有半毛钱关系啊&#xff09;。我们知道&#xff0c;在逻辑回归中&#xff0c;用于预…

科学家使用机器学习获得前所未有的小分子视图

编辑 | 绿萝数以千计的不同小分子&#xff08;称为代谢物&#xff09;在整个人体中传输能量和传递细胞信息。由于它们非常小&#xff0c;因此很难在血液样本分析中将代谢物彼此区分开来——但识别这些分子对于了解运动、营养、饮酒和代谢紊乱如何影响健康非常重要。尽管在过去十…

【Brain】脑洞从何而来?加州大学最新研究:有创造力的人神经连接会「抄近道」...

来源&#xff1a;量子位为什么有的人更富创造力&#xff1f;总能想到别人不会想到的东西&#xff0c;做别人想不到做的事&#xff1f;最近&#xff0c;这个问题的答案被找到了&#xff1a;有创造力的人&#xff0c;大脑里的神经活动会“抄近道”。加州大学洛杉矶分校的研究人员…

一位老师,一位领导,一个让全体学生考上目标学校的故事

今天&#xff0c;小夕给大家讲一个故事... 从前&#xff0c;有座山...​ 山里&#xff0c;有座学校... 学校里&#xff0c;有一位老师&#xff0c;一位领导&#xff0c;还有五只可爱的小仙(学)女(生)。 这5个学生的名字是&#xff1a;小兔&#xff0c;小青&#xff0c;小路&…

小冰李笛:ChatGPT在向“让你认为它有知识”的方向发展 | MEET 2023

来源&#xff1a;量子位衡宇 整理自 MEET2023ChatGPT技惊四座&#xff0c;甚至不少人认为它已经能“取代搜索引擎”。然而就在MEET2023智能未来大会上&#xff0c;却出现了这样一种迥然相异的观点&#xff1a;未来5年里&#xff0c;大家想要获取知识&#xff0c;最好的方法还是…

从前,有只小仙女叫...

从前&#xff0c;有只小仙女叫小音✧٩(ˊωˋ*)و✧这一篇真的不是小夕萌的技术文啦(&#xffe3;∇&#xffe3;)今天小夕给大家推送一点好玩的东西~毕竟高中老师说过&#xff0c;不能只学不玩嘛(&#xffe3;∇&#xffe3;)虽然小夕以萌著称\(//∇//)\&#xff0c;但是在da…