来源:数学建模andMATLAB
原文作者:Nir Kaldero
翻译:Fibears
原文链接:
http://www.galvanize.com/blog/2015/08/26/why-a-mathematician-statistician-machine-learner-solve-the-same-problem-differently-2/#.VeUQMNOqoVU
乍一看,机器学习和统计学非常相似,但是大家几乎不强调这两个学科之间差异的重要性。机器学习和统计学拥有相同的目标——它们都专注于数据建模——但它们的方法受其文化差异所影响。对于我们来说,了解反映这两个学科文化概况的基本差异有利于更好的协作和知识创新。为了加深对这些差异的理解,我们需要回头来看看它们的历史根源。
机器学习和统计学的简史
1946 年,伴随着人们利用机器改进数值计算的设想(而不是用纸和笔手动计算的方法),第一台电子计算机(ENIAC)被开发出来了。当时人们的想法是,人类思维(人力资本投资)和学习能力可以被复制成计算机所需要的逻辑格式。
在上世纪五十年代,“人工智能之父”阿兰·图灵提出一个衡量机器能够在多大程度上像人类一样学习和实践的测试方法。在接下来的十年里,弗兰克·罗森布拉特在康奈尔大学的航空实验室中提出感知器的概念。这一革命性发明背后的思想是: 感知器类似于线性分类器。他指出,通过联合大量的感知器我们可以创建一个强大的网络模型——神经网络模型。
机器学习的研究已成为一批计算机工程师为之努力的领域,他们努力探索计算机是否能学习并模仿人类的大脑行为。机器学习方法在数据挖掘过程中起到了至关重要的作用,被使用在大量的应用程序中。
统计领域的研究始于十七世纪的后半部分。统计学科发展背后的思想是概率论的基础——测量实验和观测科学中的不确定性。从一开始,统计学提供的工具不仅是为了“描述”现象,更重要的是要“解释”现象。
有趣的是,啤酒对统计学的发展有很大的影响。统计学中的一个基本概念,t 统计量,是一位化学家为了观测都柏林和爱尔兰的健力士黑啤酒质量差异而发明的。由于具有明确的定义和原则,t 统计量和其他概念推动结构化数学理论的发展。统计学开发了许多工具便于人们使用,这提高了他们的观察、排列、预测和抽样的能力。
文化差异
捕捉真实世界中的现象就是在处理不确定性的事情。为了实现这个目标,统计学家必须了解所研究总体的潜在分布,并找出可以提供预测能力的参数。统计学家的目标是在一定程度上预测变量之间的相互作用(我们无法 100% 确定任何事情)。另一方面,机器学习专家则希望建立一套可以用于预测、分类和聚类的最精确算法。他们不考虑不确定和假设的问题,而且致力于提高算法的精度。
下图描述了机器学习和统计学方法的文化差异:
我们为什么要关心这些差异呢?
更好,更明智的决定
深入了解这两个学科之间文化和专业术语的差异将带来更高效的沟通。而更好的沟通肯定会带来更好的合作,这将改进团队的决策过程。
许多时候,统计学或机器学习的专家会认为对方处理问题的方法是一样的。谷歌研究总监彼得·诺维格曾经做过一个实验,非常好地说明了这种做法是如何产生事与愿违的结果的。
诺维格与一位斯坦福的统计学家合作,他们想要证明统计学家、数据科学家和数学家思考的方式一致。他们猜想,如果这些人接收到相同的数据集,然后独立处理数据,最后一起返回结果,那么会发现他们使用了相同的方法。因此,他们取得一个非常大的数据集,并将其共享给这些人。
数据科学家使用了全部的数据集并构建一个复杂的预测模型。而统计学家只使用 1% 的样本数据,同时抛弃了其他数据,并验证了该数据集满足一定的假设条件。不管你信不信,数学家甚至都没有看数据集。相反地,他们证明了可以应用到数据中(理论上)的各种公式的特性。
这个实验未能证明这些领域中的人们以相同的方式工作,但是却表明了如果这些学科的人们想要一起解决棘手的问题,那么沟通是必不可少的。
缩小差距
了解对方,知道他们的文化背景可以使机器学家和统计学家扩充他们的知识,甚至应用专业领域之外的方法。这就是“数据科学”本身的概念,其目的在于消除这两个学科之间的隔阂。这两个同样以数据为驱动的学科(机器学习和统计学)之间的合作和沟通使我们能够做出更好的决策,这最终会对我们的生活产生积极的影响。
未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。
如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”