为什么数学家、统计学家和机器学习专家会用不同方式解决问题?

6ae68c2f11490790de50d5c59f65e1d6.png

来源:数学建模andMATLAB

原文作者:Nir Kaldero

翻译:Fibears


原文链接: 

http://www.galvanize.com/blog/2015/08/26/why-a-mathematician-statistician-machine-learner-solve-the-same-problem-differently-2/#.VeUQMNOqoVU

乍一看,机器学习和统计学非常相似,但是大家几乎不强调这两个学科之间差异的重要性。机器学习和统计学拥有相同的目标——它们都专注于数据建模——但它们的方法受其文化差异所影响。对于我们来说,了解反映这两个学科文化概况的基本差异有利于更好的协作和知识创新。为了加深对这些差异的理解,我们需要回头来看看它们的历史根源。

机器学习和统计学的简史

1946 年,伴随着人们利用机器改进数值计算的设想(而不是用纸和笔手动计算的方法),第一台电子计算机(ENIAC)被开发出来了。当时人们的想法是,人类思维(人力资本投资)和学习能力可以被复制成计算机所需要的逻辑格式。

在上世纪五十年代,“人工智能之父”阿兰·图灵提出一个衡量机器能够在多大程度上像人类一样学习和实践的测试方法。在接下来的十年里,弗兰克·罗森布拉特在康奈尔大学的航空实验室中提出感知器的概念。这一革命性发明背后的思想是: 感知器类似于线性分类器。他指出,通过联合大量的感知器我们可以创建一个强大的网络模型——神经网络模型。

机器学习的研究已成为一批计算机工程师为之努力的领域,他们努力探索计算机是否能学习并模仿人类的大脑行为。机器学习方法在数据挖掘过程中起到了至关重要的作用,被使用在大量的应用程序中。

统计领域的研究始于十七世纪的后半部分。统计学科发展背后的思想是概率论的基础——测量实验和观测科学中的不确定性。从一开始,统计学提供的工具不仅是为了“描述”现象,更重要的是要“解释”现象。

有趣的是,啤酒对统计学的发展有很大的影响。统计学中的一个基本概念,t 统计量,是一位化学家为了观测都柏林和爱尔兰的健力士黑啤酒质量差异而发明的。由于具有明确的定义和原则,t 统计量和其他概念推动结构化数学理论的发展。统计学开发了许多工具便于人们使用,这提高了他们的观察、排列、预测和抽样的能力。

文化差异

捕捉真实世界中的现象就是在处理不确定性的事情。为了实现这个目标,统计学家必须了解所研究总体的潜在分布,并找出可以提供预测能力的参数。统计学家的目标是在一定程度上预测变量之间的相互作用(我们无法 100% 确定任何事情)。另一方面,机器学习专家则希望建立一套可以用于预测、分类和聚类的最精确算法。他们不考虑不确定和假设的问题,而且致力于提高算法的精度。

下图描述了机器学习和统计学方法的文化差异:

b95e681be0c58ad57bf479cdcc749af0.png

我们为什么要关心这些差异呢?

更好,更明智的决定

深入了解这两个学科之间文化和专业术语的差异将带来更高效的沟通。而更好的沟通肯定会带来更好的合作,这将改进团队的决策过程。

许多时候,统计学或机器学习的专家会认为对方处理问题的方法是一样的。谷歌研究总监彼得·诺维格曾经做过一个实验,非常好地说明了这种做法是如何产生事与愿违的结果的。

诺维格与一位斯坦福的统计学家合作,他们想要证明统计学家、数据科学家和数学家思考的方式一致。他们猜想,如果这些人接收到相同的数据集,然后独立处理数据,最后一起返回结果,那么会发现他们使用了相同的方法。因此,他们取得一个非常大的数据集,并将其共享给这些人。

数据科学家使用了全部的数据集并构建一个复杂的预测模型。而统计学家只使用 1% 的样本数据,同时抛弃了其他数据,并验证了该数据集满足一定的假设条件。不管你信不信,数学家甚至都没有看数据集。相反地,他们证明了可以应用到数据中(理论上)的各种公式的特性。

这个实验未能证明这些领域中的人们以相同的方式工作,但是却表明了如果这些学科的人们想要一起解决棘手的问题,那么沟通是必不可少的。

缩小差距

了解对方,知道他们的文化背景可以使机器学家和统计学家扩充他们的知识,甚至应用专业领域之外的方法。这就是“数据科学”本身的概念,其目的在于消除这两个学科之间的隔阂。这两个同样以数据为驱动的学科(机器学习和统计学)之间的合作和沟通使我们能够做出更好的决策,这最终会对我们的生活产生积极的影响。

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)大脑研究计划,构建互联网(城市)大脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。每日推荐范围未来科技发展趋势的学习型文章。目前线上平台已收藏上千篇精华前沿科技文章和报告。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

cc45b1e9a799a2214df5d61128b20eb0.png

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/483153.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Bing每日壁纸API分享

CSS中设置背景图片 可以使用此API直接在CSS中设置背景图片: background-image: url(https://bing.biturl.top/?resolution1920&formatimage&index0&mktzh-CN); background-size: 100%; background-repeat: no-repeat;演示地址:http://my.mojxtang.com/…

数据库基础知识——流程控制结构

文章目录1.分支1.1 if函数1.2 case语句1.3 if elseif语句2. 循环1.分支 1.1 if函数 语法:if(条件,值1,值2) 特点:可以用在任何位置1.2 case语句 语法: 情况一:类似于switch case 表达式 when 值1 then …

搭建Java开发环境及相关工具

1、JDK安装及环境配置 此处安装JDK1.8的版本,官方下载地址: https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html 选择window64位的,具体的安装步骤和环境配置可参考: https://blog.csdn.net/…

眼耳鼻舌身意,严肃地聊一聊元宇宙的“技术拼图”

来源:脑极体元宇宙太太太火了,以至于还没来得及认真聊一聊技术本身,各种炒房团、割韭菜、融资潮、付费课……就纷至沓来,我看不懂但大受震撼。吃多了瓜,颇有一种“累了毁灭吧”的虚无感。不过,元宇宙的技术…

数据库高级知识——mysql架构介绍(一)

文章目录1.MySQL简介1.1 概述1.2 Mysql高级2.Mysql Linux版的安装2.1 MySQL下载官网2.2 安装与卸载2.3 查看MySQL安装版本2.4 mysql服务的启停2.5 登录mysql2.6 设置开机自启动2.7 MySQL相关文件2.8 修改字符集3.Mysql配置文件3.1二进制日志log-bin3.2 错误日志log-error3.3 慢…

美国大胆预测:未来300年的人类竟然是这样的!

来源:云犀科技编辑:小艾 关于未来,人们越来越向往300年后人类社会的发展又会是什么样子呢?对于未来,大家又是怎么预测的呢?▼5年后▼三维全息虚拟技术正式大规模商用,可以通过VR、AR技术进行远程…

数据库高级知识——mysql架构介绍(二)

文章目录1.Mysql逻辑架构介绍1.1 总体概览1.2 查询说明2.Mysql存储引擎2.1 查看命令2.2 各个引擎简介2.3 MyISAM和InnoDB2.4 阿里巴巴、淘宝用哪个1.Mysql逻辑架构介绍 1.1 总体概览 和其它数据库相比,MySQL有点与众不同,它的架构可以在多种不同场景中…

Linux或者Mac解压乱码问题

1、unar : 命令行解压工具 2、安装: ubuntu等Linux安装方法:sudo apt install unar mac系统安装方法:brew install unar 现在mac电脑用 The Unarchiver 解压也不会出现乱码 3、使用方法:unar filename.zip 转载于:https://www.cnb…

联邦学习应用思考:需求还是方法?

来源:AI数据派前言:目前,“联邦学习”这个术语在市场上存在很多认识上的误解和混淆,主要原因是其既在广义上表达了保护数据前提下联合多方数据训练模型的需求,又在狭义上表示了一类通过暴露部分数据信息来提升训练性能…

数据库高级知识——索引优化分析(一)

文章目录1.SQL性能下降原因2.常见通用的Join查询2.1 SQL执行顺序2.2 Join图3.索引简介3.1 索引是什么3.2 索引优势3.3 索引劣势3.4 索引分类3.5 mysql索引结构3.6 哪些情况需要创建索引3.7 哪些情况不要创建索引1.SQL性能下降原因 查询数据过多 能不能拆,条件过滤…

使用C++代码打印数字正方形

使用C代码打印数字正方形 作为一名初学者,最近在跟着网课学习C程序设计基础。在学习过程中遇到了一些习题,我根据自己的理解和思路写了一些代码实现,算是对自己学习过程的一个记录,也希望可以对别人有些许帮助。 题目描述 输入描述…

PNAS:大脑一思考,就不再对称也不再平衡

来源: 集智俱乐部作者:郭瑞东 审校:张澳 编辑:邓一雪 导语生命系统的各种功能,从精神层面的思考,到物理层面的运动,都会消耗能量并产生熵,打破原有的平衡。但不同的认知或物理活动&…

数据库高级知识——索引优化分析(二)

文章目录4.性能分析4.1 MySQL常见瓶颈4.2 Explain5.查询优化5.1 索引失效5.2 索引优化4.性能分析 4.1 MySQL常见瓶颈 CPU :SQL中对大量数据进行比较、关联、排序、分组 IO:实例内存满足不了缓存数据或排序等需要,导致产生大量 物理 IO。查询执行效率低…

《经济学人》:2022年值得关注的22项新兴技术

来源:参考消息网英国《经济学人》网站11月8日发表题为《下一个是什么?2022年值得关注的22项新兴技术》的文章。在文章列举的22项新技术中,既有今年大热的“元宇宙”、太空旅游、脑机接口,也有备受期待的量子计算、艾滋病病毒疫苗……

数据库高级知识——查询截取分析(一)

文章目录1.慢查询日志1.1 慢查询日志是什么1.2 慢查询日志的操作1.3 日志分析工具mysqldumpslow2.批量数据脚本1.慢查询日志 1.1 慢查询日志是什么 MySQL的慢查询日志是MySQL提供的一种日志记录,它用来记录在MySQL中响应时间超过阀值的语句, 具体指运行…

Git missing Change-Id in commit message footer解决方法

Git missing Change-Id in commit message footer解决方法在Git向服务器提交代码时,出现如下错误missing Change-Id in commit message footer1原因:项目仓库.git/hooks目录下,commit-msg文件缺失。解决方法1:一般在提交代码报错时…

数据库高级知识——查询截取分析(二)

文章目录3.Show Profile3.1 show profile是什么3.2 分析步骤4.全局查询日志4.1配置启用4.2编码启用3.Show Profile 3.1 show profile是什么 show profile是mysql提供可以用来分析当前会话中语句执行的资源消耗情况。可以用于SQL的调优的测量 默认情况下,参数处于关…

郭瑞东 | 如何制造更聪明的人工智能?让人工生命在复杂环境中进化

来源:集智俱乐部作者:郭瑞东我们都知道大脑是控制身体的中枢,或者夸张点说,身体只是大脑的傀儡。然而事实果真如此吗?认知科学指出,人类并不总是“先知后行”,很多时候也会“先行后知”,身体在塑造精神方面…

移位运算

有无符号数差异: 左移只有逻辑左移,即低位依次补:0; 右移: 无符号数 逻辑右移(高位依次补:0) 有符号数 算术右移(高位依次补:最高符号位) 当…

行业观察 | 机器人Ameca挣脱「灵魂」枷锁觉醒?

来源:新智元编辑:小咸鱼 桃子或许你根本不敢想像机器人真正苏醒时的样子。活动肩骨后,突然间灵魂附体,大梦初醒般睁开双眼。先是紧皱眉头,后是做出惊讶不已的表情,让人不得不惊呼《西部世界》来了...「我是…