为什么数学家、统计学家和机器学习专家会用不同方式解决问题?

6ae68c2f11490790de50d5c59f65e1d6.png

来源:数学建模andMATLAB

原文作者:Nir Kaldero

翻译:Fibears


原文链接: 

http://www.galvanize.com/blog/2015/08/26/why-a-mathematician-statistician-machine-learner-solve-the-same-problem-differently-2/#.VeUQMNOqoVU

乍一看,机器学习和统计学非常相似,但是大家几乎不强调这两个学科之间差异的重要性。机器学习和统计学拥有相同的目标——它们都专注于数据建模——但它们的方法受其文化差异所影响。对于我们来说,了解反映这两个学科文化概况的基本差异有利于更好的协作和知识创新。为了加深对这些差异的理解,我们需要回头来看看它们的历史根源。

机器学习和统计学的简史

1946 年,伴随着人们利用机器改进数值计算的设想(而不是用纸和笔手动计算的方法),第一台电子计算机(ENIAC)被开发出来了。当时人们的想法是,人类思维(人力资本投资)和学习能力可以被复制成计算机所需要的逻辑格式。

在上世纪五十年代,“人工智能之父”阿兰·图灵提出一个衡量机器能够在多大程度上像人类一样学习和实践的测试方法。在接下来的十年里,弗兰克·罗森布拉特在康奈尔大学的航空实验室中提出感知器的概念。这一革命性发明背后的思想是: 感知器类似于线性分类器。他指出,通过联合大量的感知器我们可以创建一个强大的网络模型——神经网络模型。

机器学习的研究已成为一批计算机工程师为之努力的领域,他们努力探索计算机是否能学习并模仿人类的大脑行为。机器学习方法在数据挖掘过程中起到了至关重要的作用,被使用在大量的应用程序中。

统计领域的研究始于十七世纪的后半部分。统计学科发展背后的思想是概率论的基础——测量实验和观测科学中的不确定性。从一开始,统计学提供的工具不仅是为了“描述”现象,更重要的是要“解释”现象。

有趣的是,啤酒对统计学的发展有很大的影响。统计学中的一个基本概念,t 统计量,是一位化学家为了观测都柏林和爱尔兰的健力士黑啤酒质量差异而发明的。由于具有明确的定义和原则,t 统计量和其他概念推动结构化数学理论的发展。统计学开发了许多工具便于人们使用,这提高了他们的观察、排列、预测和抽样的能力。

文化差异

捕捉真实世界中的现象就是在处理不确定性的事情。为了实现这个目标,统计学家必须了解所研究总体的潜在分布,并找出可以提供预测能力的参数。统计学家的目标是在一定程度上预测变量之间的相互作用(我们无法 100% 确定任何事情)。另一方面,机器学习专家则希望建立一套可以用于预测、分类和聚类的最精确算法。他们不考虑不确定和假设的问题,而且致力于提高算法的精度。

下图描述了机器学习和统计学方法的文化差异:

b95e681be0c58ad57bf479cdcc749af0.png

我们为什么要关心这些差异呢?

更好,更明智的决定

深入了解这两个学科之间文化和专业术语的差异将带来更高效的沟通。而更好的沟通肯定会带来更好的合作,这将改进团队的决策过程。

许多时候,统计学或机器学习的专家会认为对方处理问题的方法是一样的。谷歌研究总监彼得·诺维格曾经做过一个实验,非常好地说明了这种做法是如何产生事与愿违的结果的。

诺维格与一位斯坦福的统计学家合作,他们想要证明统计学家、数据科学家和数学家思考的方式一致。他们猜想,如果这些人接收到相同的数据集,然后独立处理数据,最后一起返回结果,那么会发现他们使用了相同的方法。因此,他们取得一个非常大的数据集,并将其共享给这些人。

数据科学家使用了全部的数据集并构建一个复杂的预测模型。而统计学家只使用 1% 的样本数据,同时抛弃了其他数据,并验证了该数据集满足一定的假设条件。不管你信不信,数学家甚至都没有看数据集。相反地,他们证明了可以应用到数据中(理论上)的各种公式的特性。

这个实验未能证明这些领域中的人们以相同的方式工作,但是却表明了如果这些学科的人们想要一起解决棘手的问题,那么沟通是必不可少的。

缩小差距

了解对方,知道他们的文化背景可以使机器学家和统计学家扩充他们的知识,甚至应用专业领域之外的方法。这就是“数据科学”本身的概念,其目的在于消除这两个学科之间的隔阂。这两个同样以数据为驱动的学科(机器学习和统计学)之间的合作和沟通使我们能够做出更好的决策,这最终会对我们的生活产生积极的影响。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

cc45b1e9a799a2214df5d61128b20eb0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

眼耳鼻舌身意,严肃地聊一聊元宇宙的“技术拼图”

来源:脑极体元宇宙太太太火了,以至于还没来得及认真聊一聊技术本身,各种炒房团、割韭菜、融资潮、付费课……就纷至沓来,我看不懂但大受震撼。吃多了瓜,颇有一种“累了毁灭吧”的虚无感。不过,元宇宙的技术…

数据库高级知识——mysql架构介绍(一)

文章目录1.MySQL简介1.1 概述1.2 Mysql高级2.Mysql Linux版的安装2.1 MySQL下载官网2.2 安装与卸载2.3 查看MySQL安装版本2.4 mysql服务的启停2.5 登录mysql2.6 设置开机自启动2.7 MySQL相关文件2.8 修改字符集3.Mysql配置文件3.1二进制日志log-bin3.2 错误日志log-error3.3 慢…

美国大胆预测:未来300年的人类竟然是这样的!

来源:云犀科技编辑:小艾 关于未来,人们越来越向往300年后人类社会的发展又会是什么样子呢?对于未来,大家又是怎么预测的呢?▼5年后▼三维全息虚拟技术正式大规模商用,可以通过VR、AR技术进行远程…

数据库高级知识——mysql架构介绍(二)

文章目录1.Mysql逻辑架构介绍1.1 总体概览1.2 查询说明2.Mysql存储引擎2.1 查看命令2.2 各个引擎简介2.3 MyISAM和InnoDB2.4 阿里巴巴、淘宝用哪个1.Mysql逻辑架构介绍 1.1 总体概览 和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中…

联邦学习应用思考:需求还是方法?

来源:AI数据派前言:目前,“联邦学习”这个术语在市场上存在很多认识上的误解和混淆,主要原因是其既在广义上表达了保护数据前提下联合多方数据训练模型的需求,又在狭义上表示了一类通过暴露部分数据信息来提升训练性能…

数据库高级知识——索引优化分析(一)

文章目录1.SQL性能下降原因2.常见通用的Join查询2.1 SQL执行顺序2.2 Join图3.索引简介3.1 索引是什么3.2 索引优势3.3 索引劣势3.4 索引分类3.5 mysql索引结构3.6 哪些情况需要创建索引3.7 哪些情况不要创建索引1.SQL性能下降原因 查询数据过多 能不能拆,条件过滤…

使用C++代码打印数字正方形

使用C代码打印数字正方形 作为一名初学者,最近在跟着网课学习C程序设计基础。在学习过程中遇到了一些习题,我根据自己的理解和思路写了一些代码实现,算是对自己学习过程的一个记录,也希望可以对别人有些许帮助。 题目描述 输入描述…

PNAS:大脑一思考,就不再对称也不再平衡

来源: 集智俱乐部作者:郭瑞东 审校:张澳 编辑:邓一雪 导语生命系统的各种功能,从精神层面的思考,到物理层面的运动,都会消耗能量并产生熵,打破原有的平衡。但不同的认知或物理活动&…

数据库高级知识——索引优化分析(二)

文章目录4.性能分析4.1 MySQL常见瓶颈4.2 Explain5.查询优化5.1 索引失效5.2 索引优化4.性能分析 4.1 MySQL常见瓶颈 CPU :SQL中对大量数据进行比较、关联、排序、分组 IO:实例内存满足不了缓存数据或排序等需要,导致产生大量 物理 IO。查询执行效率低…

《经济学人》:2022年值得关注的22项新兴技术

来源:参考消息网英国《经济学人》网站11月8日发表题为《下一个是什么?2022年值得关注的22项新兴技术》的文章。在文章列举的22项新技术中,既有今年大热的“元宇宙”、太空旅游、脑机接口,也有备受期待的量子计算、艾滋病病毒疫苗……

郭瑞东 | 如何制造更聪明的人工智能?让人工生命在复杂环境中进化

来源:集智俱乐部作者:郭瑞东我们都知道大脑是控制身体的中枢,或者夸张点说,身体只是大脑的傀儡。然而事实果真如此吗?认知科学指出,人类并不总是“先知后行”,很多时候也会“先行后知”,身体在塑造精神方面…

行业观察 | 机器人Ameca挣脱「灵魂」枷锁觉醒?

来源:新智元编辑:小咸鱼 桃子或许你根本不敢想像机器人真正苏醒时的样子。活动肩骨后,突然间灵魂附体,大梦初醒般睁开双眼。先是紧皱眉头,后是做出惊讶不已的表情,让人不得不惊呼《西部世界》来了...「我是…

数据结构与算法——二分查找与二叉排序树

文章目录1.预备知识1.1 题目目录1.2 二分查找1.3 递归二分查找1.4 循环二分查找1.5 二叉查找(排序)树1.6 二叉搜索树的代码实现2.搜索插入位置2.1 题目描述2.2 C代码实现3.区间查找3.1 题目描述3.2 算法思路3.3 C代码实现4.旋转数组查找4.1 题目描述4.2 …

Django-C001-快速入门

此文章完成度【100%】留着以后忘记的回顾。多写多练多思考,我会努力写出有意思的demo,如果知识点有错误、误导,欢迎大家在评论处写下你的感想或者纠错。 Django Django是一个开放源码的Web应用框架,由Python写成,采用M…

Nature子刊:吃得越少,活得越久

来源:六六脑我们如何才能在年老体迈时保持健康和尽可能延长寿命?现在,研究衰老的科学家们已经给出了简单的答案:少吃点儿!常言道,千金难买老来瘦。的确,经验与科学实验都告诉我们,成…

数据库高级知识——MySql锁机制

文章目录1.概述1.1 定义1.2 锁的分类2.三锁2.1 表锁(偏读)2.2 行锁(偏写)2.3 页锁1.概述 1.1 定义 锁是计算机协调多个进程或线程并发访问某一资源的机制。在数据库中,除传统的计算资源(如CPU、RAM、I/O等)的争用以外,数据也是一…

最早的神经元从何而来?海绵基因图谱揭示神经系统起源

来源: 集智俱乐部作者:Viviane Callier译者:陈斯信 审校:梁金 编辑:邓一雪 导语海绵是动物生命演化树上最早的分支谱系之一,它们身体构造简单,却拥有许多与人类和其它复杂生物相同的基因。11月…

数据库高级知识——主从复制

文章目录1.复制的基本原理1.1 复制的原理和步骤2.复制的基本原则3.复制的最大问题4.一主一从常见配置4.1 主机修改my.ini配置文件4.2 从机修改my.cnf配置文件4.3 重启和关闭防火墙4.4 在Windows主机上建立帐户并授权slave4.5 在Linux从机上配置需要复制的主机4.6 关闭1.复制的基…

FrostSulliven最新发布引领全球增长的60大技术

来源:必达智库图片来源:网络沙利文特别推出“引领全球增长的60大技术”报告,该报告涵盖了环境与可持续发展、能源与公共事业、化学与新型材料、信息与通信技术、高端制造与自动化、传感器和仪器设备、健康领域、医疗器械与影响以及微电子等九…

GitHub基础——下载和上传

文章目录1.下载2.上传2.1 新建一个仓库2.2 上传2.3 拖拽1.下载 1.进入要下载的文件夹 2.右键,Git Bash Here,进入git bash 3.输入下载命令 19072LAPTOP-688SMNV8 MINGW64 /f/github download/设计模式 $ git clone https://github.com/rhyspang/CPP-De…