大数据时代的机器学习有什么不同?

小夕昨晚没有发文章,却收到了一个大红包和好多晚安,好受之有愧..>_<...谢谢你们喵。

路人戊:小夕,我们身处大数据时代了,好厉害呢。

小夕:嗯嗯,哪里厉害了呢?

路人戊:对哦,哪里厉害了呢。

小夕:...

前言

在大数据的背景下,Adaboost、随机森林、深度学习等机器学习模型大放光彩,而SVM的光环则逐渐暗淡了下来。那么是什么造就了这些呢?大数据与小数据的机器学习又有什么不同呢?

小数据时代

首先,小夕带你回顾一下经典的小数据机器学习过程:

文字描述一下流程:

1、从各处搜刮大自然的真实模型的样本,得到小数据集;

2、根据机器学习算法,细嚼慢咽小数据从而得到机器学习模型;

3、利用交叉验证反刍样本集,优化模型的各个参数。并利用测试集测试模型泛化能力。使得模型最接近大自然的真实模型。

 

已经学过机器学习的喵喵知道,泛化(generalization)能力决定一个机器学习模型(包括预测、分类、聚类等)的精度。所以哪怕你训练出来一个模型,它在你拥有的小数据集上做到了100%的准确度,但是一旦将该模型用于大自然真实模型中,很容易出现全面崩盘,即准确度大幅度下降的问题。为什么呢?

 

显而易见,是因为小数据集不能代表整个大自然真实模型,也就是不能代表全集。一个极端的例子就是给你1000张狗的图片库,让你训练出来一个模型来分类世界上所有的猫。那这个任务是任何机器学习模型都无法完成的。

 

所以在小数据时代,人们的关注点在于如何提高机器学习模型的泛化能力,也就是如何尽可能的压榨小数据上的那点可怜的信息量,来尽可能的还原出小数据集背后的超大真实模型。这一时代的理论巅峰就是支持向量机(SVM)。

大数据时代

到了大数据时代,也就是我们所处的时代,情况变成这个样子了:

这代表什么意思呢?小夕再来嘲讽一下媒体宣传。

 

在媒体的大肆宣传下,好像数据量达到多少TB(1TB=1024GB)或者多少PB(1PB=1024TB)就算大数据,这种定义实在太忽悠老百姓啦,爱思考的喵喵肯定觉得这种说法怪怪的。

 

想象一下,有的老司机从网上下载了1PB的爱情动作大片,能说这位老司机拥有了大数据吗?

 

比如对于一个步态识别的问题,仅仅拿着老司机下载的1PB的视频的话,模型会是这个样子的:

此时的1PB数据集中,大部分信息都是冗余的,而去掉这些冗余信息后跟小数据集没什么区别了,远远无法代表全集。

所以呀,一个比较准确的说法是:大数据不仅很大,而且很复杂。(来自Wiki百科)

这里的一个延伸含义就是:大数据可以代表全集。

回到主线上来,既然我们都拥有全集了,那么机器学习模型的泛化能力还是研究重点吗?

 

当然不是咯。你只需要尽可能多的吃掉数据集,将机器学习模型训练出来就可以啦!当这个机器学习模型都可以100%拟合你的大数据集的时候,自然就可以几乎100%的拟合全集了。(应该很好理解的吧)

全集都搞定了,所以也不必惊讶模型的精度怎么那么高了吧╮(╯▽╰)╭

 

所以这种暴力美学在工业界成功应用了。当我们手头有了一个饭量大到可以充分消化大数据集的机器学习模型时,当我们的吃饭速度足够快时,BOMB~爆炸啦。此时的机器学习模型,很多人都能猜到深度学习模型,实际上远不止这一个大饭量的模型啦。而这里的吃饭速度,就是靠并行、分布式计算等高性能计算技术来提升咯。

 

咦?这么看来,我们只需要打开淘宝的服务器链接买买买不就行啦~还有什么好研究的呐QAQ。

 

导师:“(╯°Д°)╯︵ /(.□ . \) 给!我!退!学!”

小夕:“(。 ́︿ ̀。)”

大数据的学习方式

 

咳咳,当然不能这样啦~暴力法在工业界很有用,但是学术界没钱呀(噗,千万别当真)。换句话说,绝大部分企业和绝大部分机器学习任务是难以靠暴力美学来生存和解决的。所以大数据下的机器学习依然有非常多的研究点。

表示:

首先,我们要研究新型的数据结构、数据库来对数据进行存储和表示呀,这方面的优化会使得训练环节更加高效。

 

重采样:

另外,大数据中肯定有非常多的冗余、脏乱的信息。因此,给数据瘦身肯定可以大幅提高训练效率和精度。因此我们可以从大数据重采样出一部分数据,并辅以降维操作进而得到数据子集。

 

而这个子集虽然规模远远没有大数据集大,但是其内容非常丰富,依然可以代表全集。简单来看就是这样的:

虽然是子集,但是规模也不会太小呀,再高效的模型、世界上再快的服务器也很难经得住这么大的数据量。所以怎么办呢?

训练: 

并行训练呗。

比如一个典型的神经网络中,同一层的各个隐结点的训练都是相互独立的,所以我们可以让每一台服务器专门负责一个隐结点或者某几个结点的训练呀~

 

比如集成方法中,随机森林、Adaboost等将多个弱分类器组合在一起进行决策,那么我们可以让每一台服务器专门负责一个或几个弱分类器的训练~

 

而与之对比,传统的机器学习模型如Logistic、SVM等就难以并行训练,何况还存在其他问题。所以就不必惊讶为什么大数据背景下很多传统机器学习模型不流行了吧╮(╯▽╰)╭

而大数据的机器学习除了要考虑并行训练外,还常常考虑流式数据的在线训练问题以及混合数据的半监督学习问题等,不再一一展开啦。

最后一句话总结一下:

小数据机器学习的核心是模型的泛化;

大数据机器学习的核心是数据的分治。

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/481294.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Science Bulletin | 阿尔茨海默病的现状与未来

目前全球人口老龄化进展严重&#xff0c;中国已成为世界上老龄化最快的国家之一。随着人口老龄化&#xff0c;痴呆患者的数目急剧增加&#xff0c;阿尔茨海默病&#xff08;Alzheimers disease, AD&#xff09;作为痴呆的主要原因&#xff0c;已成为当今社会最为热点的话题之一…

Science年度十大科学突破出炉:韦伯望远镜高居榜首,AIGC、NASA主动撞击小行星紧随其后...

来源&#xff1a;FUTURE远见选编&#xff1a;FUTURE | 远见 闵青云 文&#xff1a;量子位 前脚韦伯望远镜运维科学家刚获得Nature年度十大人物&#xff1b;紧接着&#xff0c;Science也将韦伯望远镜评为年度最大科学突破&#xff01;今天&#xff0c;Science重磅发布2022年度科…

词袋、独热与词向量

亲爱的读者喵喵&#xff0c;由于一些事情&#xff0c;小夕最近情绪欠佳&#xff0c;导致昨天又失约没有更新文章...而且文章中萌气散失...小夕会尽快调整好哦&#xff0c;小夕依然萌萌嗒我们知道&#xff0c;传统的数据挖掘任务面向的是结构化数据。结构化数据很好理解&#xf…

人工智能会“偷走”潜艇的隐身能力吗?

更好的探测技术 不仅能使海洋变得透明&#xff0c;也许还会削弱核威慑力。潜艇的价值主要在于其隐蔽性。有一种名为“相互确保摧毁”的威慑战略&#xff0c;其关键在于尽量确保潜艇在核战争的第一次导弹打击中幸存下来&#xff0c;从而在第二次打击时发射导弹回击。因此&#x…

人工智能大地图之分布式人工智能篇

前言人工智能大地图系列文章更新啦&#xff01;大地图系列的文章是为了帮助即将入门和初步入门人工智能相关领域的喵喵从上帝视角看清整个人工智能学科的全貌&#xff08;好长的句子&#xff09;&#xff0c;小夕可不希望小夕的粉丝在研究了一年的人工智能某方向后&#xff0c;…

符合人类创作过程的AIGC:自动生成长故事的模型出现了

来源&#xff1a;机器之心报道编辑&#xff1a;小舟、蛋酱AI写文章还是得模仿人类的创作方法。在今天的人工智能领域&#xff0c;AI 写作神器层出不穷&#xff0c;技术和产品可谓日新月异。如果说 OpenAI 两年前发布的 GPT-3 在文笔上还稍欠火候&#xff0c;那么前段时间的 Cha…

Science:挑战传统理论,重塑联想学习概念

来源&#xff1a;brainnews编译作者&#xff1a;Young&#xff08;brainnews创作团队&#xff09;校审&#xff1a;Simon&#xff08;brainnews编辑部&#xff09;学会根据环境线索预测奖赏对生存至关重要。人们认为&#xff0c;动物通过在结果偏离预期时更新预测来学习预测奖赏…

【完结】史上最萌最认真的机器学习/深度学习/模式识别入门指导手册(四)

小夕再次感谢大家的关心&#xff0c;你们的小夕已经满血复活啦&#xff01;小夕会坚持为大家带来独一无二的干货和故事哦。前言有读者反映&#xff0c;ta若能完成这个系列的阶段三&#xff0c;就在他们实验室被奉为神了。因为他们实验室每个人人手一本《模式分类》&#xff0c;…

文本相似度

《统计学习方法》-李航 损失函数总结 概要 <div id"post_detail">NLP点滴——文本相似度 目录 前言字面距离common lang库相同字符数莱文斯坦距离(编辑距离)定义实现方式Jaro距离定义实现方式应用SimHash定义基本流程相似性度量存储索引实现应用语义相似性背…

「可解释知识图谱推理」最新方法综述

来源&#xff1a;图灵人工智能近年来&#xff0c;以深度学习模型为基础的人工智能研究不断取得突破性进展&#xff0c;但其大多具有黑盒性&#xff0c;不 利于人类认知推理过程&#xff0c;导致高性能的复杂算法、模型及系统普遍缺乏决策的透明度和可解释性。在国 防、医疗、网…

小夕的算法入门之路

小夕都快要成XX入门指导专业户了QAQ&#xff0c;小夕是要写人工智能和计算机干货的啊喂~好吧&#xff0c;问小夕如何入门算法的小伙伴太多了&#xff0c;还是写一篇文章吧。小夕还收到了“如何准备托福”和“如何准备考研英语”的求助&#xff0c;然而小夕没有考过&#xff0c;…

AIGC发展路径思考:大模型工具化普及迎来新机遇

来源&#xff1a;腾讯科技摘要&#xff1a;当前&#xff0c;AIGC引发社会关注&#xff0c;尤其是大模型和开源模式的推动&#xff0c;让AIGC有望成为AI应用落地的新领域。一方面大模型和开源加速降低AIGC应用门槛并拓展应用范围&#xff1b;另一方面AI与创新的界限进一步模糊&a…

0基础讲解机器学习算法-朴素贝叶斯分类器

朴素贝叶斯分类器可以说是最经典的基于统计的机器学习模型了。首先&#xff0c;暂且不管贝叶斯是什么意思&#xff0c;朴素这个名字放在分类器中好像有所深意。 一查&#xff0c;发现这个分类器的英文是“Nave Bayes”。Nave&#xff08;读作“哪义务”&#xff09;即幼稚的、…

你可以在虚拟世界里过上美好生活吗?

来源&#xff1a;混沌巡洋舰时间来到 2095 年。地球表面满目疮痍&#xff0c;核战争和气候变化引发一场灾难。你只能过着困苦的生活&#xff0c;躲避匪帮&#xff0c;避开地雷。你的主要愿望就是活下去。或者&#xff0c;你也可以将自己的肉体锁存在安保严密的仓库里&#xff0…

web of science,SSCI索引,带你入门!

第一步;选择数据库&#xff0c;一般选择web of science 核心文集 第二步&#xff1a;在更多设置中选择web of science 第三步&#xff1a;点击被引频次后面的数字 第四部&#xff1a;点击查看其他的被引频次计数 根据自己引用的选择次数 注意事项&#xff1a;web of sci…

陶哲轩破解数十年前几何猜想,用反例证明它在高维空间不成立,同行:推翻的方式极尽羞辱...

Pine 萧箫 发自 凹非寺量子位 | 公众号 QbitAI又一个重要数学猜想&#xff0c;被陶哲轩和他的博士后破解了&#xff01;此前陶哲轩在博客上发了个小预告&#xff0c;就已经有不少人赶来围观&#xff1a;看起来是个大新闻。现在&#xff0c;不少人期待的正式版论文&#xff0c;终…

手把手教你-如何查询中文期刊是否属于核心期刊!

1.进入图书馆、点击数据库检索、在输入cscd中国科学引文数据库&#xff08;Chinese Science Citation Database&#xff0c;简称CSCD&#xff09; 2 3 4 5 6点击详细信息进入下面的页面&#xff0c;可判断文档是否属于核心期刊&#xff01;

《机器学习系列-强填EM算法在理论与工程之间的鸿沟(上)》

小夕曾经问一位做机器学习理论的学姐&#xff1a;“学姐学姐&#xff0c;EM算法是什么呢&#xff1f;”学姐回答&#xff1a;“EM算法啊&#xff0c;就是解决包含隐变量的参数估计问题。”小夕&#xff1a;然后小夕去问一位做工程的学长&#xff1a;“学长学长&#xff0c;EM算…

2022年诺贝尔物理学奖的科学内涵辨识

|作者&#xff1a;葛惟昆(清华大学物理系)本文选自《物理》2022年第12期摘要 2022年的诺贝尔物理学奖&#xff0c;被一些人误解为证明了量子纠缠现象。实际上&#xff0c;包括爱因斯坦本人都承认量子纠缠&#xff0c;关键在于如何诠释。今年诺贝尔物理学奖的价值在于这几位物…

机器学习系列-强填EM算法在理论与工程之间的鸿沟(下)

前言在上一篇文章《机器学习系列-强填EM算法在理论与工程之间的鸿沟&#xff08;上&#xff09;》中&#xff0c;小夕用优&#xff08;恐&#xff09;雅&#xff08;怖&#xff09;的数学理论来向读者解释了EM算法的工作原理。那么从工程角度出发的EM算法又是怎样的呢&#xff…