提起机器学习四个字,不知你的脑海中是否会有一丝印象?毕竟身处信息时代,在日常生活中,无论通过什么媒介,接触到这个名词概念的机会还是挺大的。与之类似,还有以下这些名词概念:数据分析、数据挖 掘、深度学习、人工智能、大数据等等。这些概念都是什么意思?都是做什么的?有什么价值?最重要的是,他们之间的关联关系以及区别是什么呢?
就我个人而言,对这些名词概念也仅仅局限于听说过而已,傻傻分不清楚。而且理解水平大概还是停留在这样的一个层次:【注:个人理解,仅供参考】
1、这些都是对海量数据进行操作的,所谓大数据,数据量肯定小不了。
2、数据分析,对数据进行建模,从不同纬度分析数据,得到有价值的结论。
3、数据挖掘,大学时期王老师讲过一些,不过早已经还给他了。不过从字面意思不难理解,往深了挖嘛,在表面数据的基础上通过科学方法,探寻深层次的数据关系以及暗藏的规律,将数据的隐含价值(比如发展趋势)得以展示。
4、至于深度学习和机器学习,以前了解一点,只记得深度学习是机器学习的一个具体分支,主要逻辑是利用计算机算法进行建模运算,将得到的结果再次作为初始数据源,进行迭代,最终得到最理想化的数据理论或结果。最直白的例子来说,就是刚洗完的衣服,满是泡沫,再进行一次次的循环漂洗,直到你觉得涮干净了。
5、人工智能,直观感受就是例如机器人,利用计算机算法服务于社会生产生活,同时具有自主学习演化的能力,貌似和上面的机器学习有重合点。
6、大数据,我觉得这个概念不应该具体指向某一个功能,而是应该指向一个行业、产业的生态圈,可以说,上面的几个概念都可以理解为大数据。至于说大数据就是大量的数据这一观点,没毛病,但是未免有点狭隘,应该更宽泛一点。
我最开始知道大数据是在刚毕业那年,第一印象也是大数据就是海量数据的处理,涉及到的一些技术例如Hadoop、HBase、Spark等等,当时还在王府井的书店买本书,照着在本地Vmware搭建了一套Hadoop分布式环境接触一下,当时大数据这个概念炒的很火,只不过后来没在继续研究,毕竟不是主要的工作方向。后来这两年又新兴起了人工智能、机器学习等概念。之前总感觉这些东西好像是一夜之间冒出来似的,很陌生,其实只是之前没有接触到的原因,你不知道并不代表之前它不存在,天外有天嘛。无论是社会炒作也好,还是他们自身彪悍也罢,作为信息时代的一员,对其有一个系统性的认识,扩展下视野,还是很有必要的,而且对于后续的学习理解也有着指导意义,磨刀不误砍柴工。否则可能就真的落后于时代了。那么接下来,就和我一起,来学习了解、认识这些新朋友吧。
前面已经提到过,困惑主要有以下两点:
1、每一个名词具体的解释。
2、它们之间的关系以及区别。
接下来就通过查阅资料,然后再进行理解总结的方式来进行吧。虽然最后很有可能,上面的我的自行理解要被啪啪打脸了,不过,那又有何妨呢?
★参考文章一:
标题:科普:大数据、人工智能、机器学习与深度学习都是什么?有什么关系?
链接:https://blog.csdn.net/zw0pi8g5c1x/article/details/80768132
内容1、大数据
内容2、人工智能
人工智能是计算机科学的一个分支,目的是开发一种拥有智能行为的机器。
内容3、机器学习
机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能,是对能通过经验自动改进的计算机算法不断优化性能的研究。
关键词:算法、经验、性能
机器学习是使数据通过算法构建出模型,然后对模型性能进行评估,评估后的指标,如果达到要求就用这个模型测试新数据,如果达不到要求就要调整算法重新建立模型,再次进行评估,如此循环往复,最终获得满意结果。
下面再扩展一点机器学习的一点知识:
机器学习的任务:
机器学习基于数据并以此获取新知识、技能。它的任务有很多,分类是其基本任务之一。
分类:
将新数据划分到合适的类别中,一般用于类别型的目标特征,如果目标特征为连续型,则往往采用回归方法。回归,是对新目标特征进行预测,是机器学习中使用非常广泛的法之一.
分类和回归:
都是先根据标签值或目标值建立模型或规则,然后利用这些带有目标值的数据形成的模型或规则,对新数据进行识别或预测。这两种方法都属于监督学习。与监督学习相对是无监督学习,无监督学习不指定目标值或预先无法知道目标值,它可以将把相似或相近的数据划分到相同的组里,聚类就是解决这一类问题的方法之一。
除了监督学习、无监督学习这两种最常见的方法外,还有半监督学习、强化学习等方法,这里我们就不展开了,下图展示了这些基本任务间的关系。
内容4、深度学习
深度学习解决的核心问题之一就是自动地将简单的特征组合成更加复杂的特征,并利用这些组合特征解决问题。深度学习是机器学习的一个分支,它除了可以学习特征和任务之间的关联以外,还能自动从简单特征中提取更加复杂的特征。
内容5、关系与区分:
- 大数据 是人工智能的基础。
- 机器学习 是人工智能的核心,是使机器具有类似人的智能的根本途径,是使大数据转变为知识或生产力的工具。
- 机器学习 要以大数据量 为基础,发掘其中蕴含的有用信息。其处理的数据越多,机器学习就越能体现出优势,如语言识别、图像识别、天气预测等等。
- 深度学习 是机器学习的一个分支,能够自动地将简单的特征组合成更加复杂的特征,因为毕竟对机器学习来说,特征提取不是一件简单的事情。
- 人工智能 是一类非常广泛的问题,机器学习是解决这类问题的一个重要手段,深度学习则是机器学习的一个分支。在很多人工智能问题上,深度学习的方法突破了传统机器学习方法的瓶颈,推动了人工智能领域的快速发展.。
扩展内容:如何选择合适算法:
当我们接到一个数据分析或挖掘的任务或需求时,如果希望用机器学习来处理,首要任务是根据任务或需求选择合适算法,选择哪种算法较合适?分析的一般步骤为:
充分了解数据及其特性,有助于我们更有效地选择机器学习算法。采用以上步骤在一定程度上可以缩小算法的选择范围,使我们少走些弯路,但在具体选择哪种算法方面,一般并不存在最好的算法或者可以给出最好结果的算法,在实际做项目的过程中,这个过程往往需要多次尝试,有时还要尝试不同算法。不过先用一种简单熟悉的方法,然后,在这个基础上不断优化,时常能收获意想不到的效果。
=>综上个人总结:
人工智能是一个大的生态面,也可以说是个行业,这个行业给我们生活提供了很大的便利,比如无人驾驶、语音识别等,这些是怎么实现的呢?要用到机器学习的技术,使用机器学习通过大量数据的算法训练【注:看来原文是把大数据作为大数据量、海量数据来理解的】构建模型。但是机器学习有不足之处,那就是对特征的提取并不简单。在一些复杂问题上,要花费大量时间精力通过人工的方式设计有效的特征集合,所以从机器学习延伸出深度学习的分支来弥补了这个不足。
总得来说,这篇文章对人工智能、机器学习、深度学习的解释我还是很满意的,清晰了然。但是他把大数据直接作为大数据量来解释,用于阐释机器学习的基础,这一点我觉得还是有点太狭隘,可能文章的重点在于机器学习而不是大数据的原因吧,就把大数据一笔带过了。文章中也扩展介绍了一点别的知识,比如机器学习本身的内容、算法的选择等,可以作为具体了解这项技术的入门资料。
★参考文章二:
标题:知乎:数据挖掘与数据分析的主要区别是什么?
链接:https://www.zhihu.com/question/20127962
排在首位的回答获赞最多,我看了下觉得说的很不错,也没什么难理解的。版权原因无法复制截图,这里我口述一下作者的意思,大致是这样的:
数据分析:一般目的性比较明确,想要从数据集中分析出想要的结果。重点是观察数据,需要人工 建模。
数据挖掘:就是从海量的数据中找到其中暗含的隐藏的规则关系,可以将发现的规则关系直接应用到新数据样本的预测,直接自动完成了数学建模。
作者也举了个简单的例子:
有一些人总是不及时向电信运营商缴钱,如何发现它们?
数据分析:通过对数据的观察,我们发现不及时缴费人群里的贫困人口占82%。所以结论是收入低的人往往会缴费不及时。结论就需要降低资费。
数据挖掘:通过编写好的算法自行发现深层次的原因。原因可能是,家住在五环以外的人,由于环境偏远不及时缴费。结论就需要多设立一些营业厅或者自助缴费点。
=>小结:
其实,仅从字面意思也不难理解二者的侧重点是不同的,没什么难理解的地方。一个侧重分析,就会有分析出的结论。一个侧重挖掘,侧重于探寻未知。这两者也是需要大量的数据样本集的,就好比做统计,样本量都不够,得出的结论怎么能够说服人呢?
写到这里,我们也注意到了,无论哪一种技术,还是理念,貌似都离不开一个前提,就是要有海量的数据集作为数据支撑,即体现了大数据的量大的特性,但是这些技术、理念不都是作为工具去处理生活中的问题的吗?什么问题呢?新时期的大量数据导致的传统常用的一般方法、工具无法满足高效处理进而得出结果用于生产生活的问题。所以,我在本文开头就认为,大数据不应只是指数据量大,数据范围大,更应该指信息时代产生的海量数据导致的一系列社会生产生活问题以及对问题的探究、处理过程的研究发展。从而衍生发展出了这些相关技术、概念理论去实践、验证、解决。(这里并不是求证理解观点的对错,毕竟是理解类的问题,因人而异,有差异很正常。)所以,这个大数据的概念我觉得是一个虚的、宽泛的概念,类似的人工智能也是一个虚拟的概念,很明显,大数据的层次范围应该在人工智能之上。对于大数据这一类的概念,了解大致方向,对个人认识有指引作用即可,不必较真去深究,重点还是应该放在机器学习、深度学习等这一类具体技术、方法的理解上来,因为它们才是解决大数据问题的具体实现、应用的关键。
如果仍然对大数据的理解有疑惑,可以参考以下百度百科的解释:
接下来,有必要来看下数据分析、数据挖掘、机器学习它们之间的横向联系:
★参考文章三:
相关文章链接:
http://innovaleur.com/the-data-science-puzzle-explained/ 【首选推荐,可用chrome翻译阅读】
https://www.zhihu.com/question/20954873
先看下图:
Artificial Intelligence 人工智能
Machine Learning 机器学习
Deep Learning 深度学习
Data Mining 数据挖掘
Data Science 数据科学
=>参考文章内容总结概括:
机器学习和数据挖掘是有很大一部分的交叉地带的,二者有着复杂的关系:数据挖掘是一个过程,在此过程中,机器学习算法被用作工具来提取数据集中保存的潜在有价值的模式。
机器学习:
机器学习本质上是跨学科的,并且采用了计算机科学,统计学和人工智能等领域的技术。
机器学习研究的主要产物是算法,它可以根据经验自动促进改进算法,这些算法可应用于各种不同的领域。
数据挖掘:
是一门交叉性很强的学科,可以用到机器学习算法以及传统统计的方法,最终的目的是要从数据中挖掘到需要的内容,从而指导人们的活动。数据挖掘的重点在于算法的应用,而不是算法本身,用何种算法并不是很重要,关键是能够满足实际应用背景。而机器学习则偏重于算法本身的设计。
———————————-
该文中其它相关内容扩展:
深度学习:
它是应用深度神经网络技术(即具有多个隐藏层的神经网络体系结构)来解决 问题的过程。深度学习就像数据挖掘一样是一个过程,采用深度神经网络架构,属 于机器学习算法的特定类型。深度学习可以通过其他流程和工具来帮助解决问题,从而为数据科学提供了非常多的帮助。从这种角度来看,深度学习是对数据科学领域非常有价值的补充。
人工智能:
原文作者大意:作者认为这个概念是随着时间的推进,在不同阶段有着不同的理解的。人工智能是一个准绳,一个移动的目标,一个无法实现的目标。每当我们踏上通往AI成就的道路时,这些成就似乎都会以某种方式转化为其他事物。
=>个人看法:
这篇文章中对数据挖掘和数据和机器学习的区别关系描述的不错,直观描述了各自的侧重点,一个侧重算法设计,一个侧重算法应用。但是该文中扩展的内容,我觉得不满意,由于是机翻,可能有差别。感觉作者只是描述了相关概念的特性,没有点出本质性的内容。所以,上面内容扩展我只记录了深度学习和人工智能的段落。深度学习这一段话,没有什么特别新颖的观点,基本和前文的介绍一致。人工智能这一段话,也只是表达了一个对其理解是随着时间推移而不断变化的特点,没有介绍AI的内容,所以我认为在这些方面此文描述的有些不理想。
综上,通过对这几个概念的阐述,相信你对这些所谓的名词术语已经有了一个大致的了解,最起码不会再傻傻分不清楚了吧!这让我想起了一件往事,就是在大学期末考试的时候,计算机网络、操作系统的这一类试卷,总是会有一种题型叫做名词解释,让你回答解释一些专有名词。当时真是痛苦,因为讨厌背诵这些东西,其实,还是一个用心不用心的问题,用心去思考,就会有自己的想法,从自己的思维去尝试理解。否则,只能是单纯的机械式的重复背诵记忆,并没有真正的掌握相关知识。
通过这次梳理吧,最起码脑子里不再是一团浆糊了,对各自有了明确的概念认识,所以我认为这次梳理还是很有必要的。如果你对文中观点有不同意见或者理解,欢迎留言交流,若发现错误之处还望批评指正。
注:文中图片来源于网络截图!