图灵奖得主Jeff Ullman直言:机器学习不是数据科学的全部!统计学也不是

来源:智源社区

作者:Jeff Ullman

编译:梦佳

1

Have we missed the boat again? 

多年来,数据库领域有一种言论认为,数据库系统正在变得无关紧要。 

大家似乎持一种绝望的心态。“have we missed the boat-again”这句话,在数据库社区里似乎司空见惯[8]。 

但我想论证,数据库以及由数据库研究而产生的技术,对于“数据科学”仍然是必不可少的,特别是在解决科学、商业、医学等应用领域的重要问题上。 

数据库系统的核心,一直是如何尽最大可能处理最大的数据量,无论是以MB为单位的企业工资单数据、TB为单位的基因组信息,还是PB为单位的的卫星输出信息。

因此,数据库的工作就是:研究一切相关数据。 

为了论证这一观点,我主要回答三个问题:

1. 统计真的是数据科学的重要组成部分吗?

2. 机器学习就是数据科学的全部吗?

3. 数据科学是否会对社会规范是否构成威胁?

我对这三个问题的回答都是“no”,接下来我将试着依次回答这三个问题。 

2

数据科学 vs. 统计学:谁是谁的子集?

几年前,我受邀参加了国家研究委员会(NRC)一个叫做“数据-科学-教育圆桌会议”的小组(详见 [16])。

这个圆桌不是由 NRC 的计算机科学部门组织的,而是由统计部门组织的。参与者中,统计学家和计算机科学家的数量差不多,加上其他学科的一些人。当时的收获主要是看统计学家如何思考这个数据的世界及其应用。最明显的一点是,统计学领域将数据科学视为自己的领域。 

公平地讲,首先让我们明确一点,我非常尊重统计学家和他们所做的工作。统计学在现代数据研究中变得越来越重要,包括但不限于机器学习。许多统计学家开始像数据库界或者更其他计算机科学界那样,关注计算和数据分析。仅举一个小例子,我最喜欢的技术之一是局部敏感哈希算法(LSH),这是一个直接来源于数据库社区的想法。 

然而,我在斯坦福大学统计部门的一位同事 Art Owen 向我展示了关键步骤——最小哈希(minhashing),这一步骤很大程度上加速了这个过程——这是我们几年前就应该能够弄清楚的,但是没有弄清楚。

然而,我在圆桌会议上的经验也让我感觉到,统计界的一些人正在努力将统计定义为数据科学的核心组成部分。相比之下,我更倾向于把高效处理大规模数据的算法和技术视为数据科学的中心。人们普遍认为,数据科学是一门结合了多个领域知识的学科,我对此完全赞同。但这些领域究竟是什么,它们又是如何相互作用的呢?

这个问题如此重要,以至于不同社区纷纷发表维恩图来证明他们自己在数据科学中的中心地位。最近有一篇文章[10]对这些图表进行了总结和评论。其他维恩图表示相关的所有观点,请查询维基百科数据科学维恩图。 

2.1康威图表

由于 Drew Conway的缘故(德鲁 · 康威,美国数据科学家,因其对数据科学的维恩图定义以及将数据科学应用于研究恐怖主义而闻名),统计学家们都习惯使用特定的图表。这个图表显示了三个相互交叉的集合: “黑客技能”、“数学和统计学”和“实质性专业知识”。在圆桌会议上,这个图表被多次展示,来说明统计学的重要性,我还看到统计学家在其他几个场合展示同样的图表,以解释他们的领域对数据科学的重要性。我复制了图1中的图表,但是我添加了一些点评来解释图表中存在误区之处。(如下图)

图1:数据科学的康威维恩图

事实上,几乎图表中的每一个区域在某种程度上都有误导性。

1、首先,一个小问题: 所谓的“实质性专门知识”一般要统称为”领域知识”或类似的东西。

2、最严重的问题是将计算机科学称为“黑客技能”。计算机科学给数据科学带来的远不止是编写代码的能力。我们提供算法、模型和框架,来解决各种各样的问题。所有这些在处理数据时都是必不可少的。

3、“传统研究”在图中显示为数学/统计与应用的交叉领域。换句话说,在这种形式的研究中,人们只考虑实际应用,而不编写任何代码,因此不会影响现实世界。我不知道这是哪来的传统,但我认为,这可不是数据库社区的传统。 

4、机器学习在这个图表中有一个奇怪的位置。它被描述为“黑客”加上数学/统计。这意味着机器学习和实际应用没有任何关系。实际上,它与应用之间有着千丝万缕的联系,这就是为什么今天机器学习的算法如此受重视,不仅在数据库界,而且在整个计算机科学界都是如此。

5.然后还有 Conway 所说的“危险区域”——通过编写代码来解决应用领域中的问题,而不需要统计学家的明智指导。几乎所有的数据科学都是这样的。举一个例子,谷歌和其他邮件服务商在检测网络钓鱼邮件方面做得很好。有多好?我们真的不知道,即使我们今天可以做一个统计分析,明天也不会奏效,因为这种威胁是不断变化的。真正的危险是我们本来可以做得更好,却放任那些骗子骗走可怜虫们毕生的积蓄。

2.2我的维恩图

我也提出了自己的维恩图(图2) ,我相信它能更好地描述这些领域之间的关系。有计算机科学和各个其他领域的科学,数据科学就位于这些领域交叉的某些地方。机器学习是计算机科学的一个分支——是当前一个非常重要的子领域。机器学习一部分可以用于数据科学,也有很多其他和计算相关的用途。 

这当中很多应用现在被认为是“人工智能”,比如无人驾驶汽车或入侵检测。最后,我认为数学和统计学对于所有的计算机科学都是非常重要的工具,虽然我图表中所画的小气泡并没有充分展示出它们的重要性。这样画是为了强调它们并不真正直接影响领域科学,而是通过在它们的帮助下开发出的软件来产生影响。

图2: 计算机科学、机器学习和统计学之间的关系(个人观点)

2.3最大的区别: 数据库和统计学价值体系

我所画的图中最有争议的是,数学/统计学并不能直接解决领域的应用。毕竟,康威图所说的“传统研究”就是这么做的。但是,尽管应用程序和数学/统计学之间可能存在绕过计算以外的交互,但我认为这种交互很少会从应用层面产生什么实际的好处。 

为了说明这种区别,我们来看一下数据科学教育圆桌会议第四次会议的报告[14]。其中讨论的一部分集中在美国统计协会举办的“黑客马拉松”上,名为“Datafest”。从表面上看,这个活动就像我们通常看到的计算机科学专业学生参加的黑客马拉松。竞赛团队将得到一个来自某个应用领域的大数据集,但是在竞赛评分方面有很大的不同。评分的焦点不在于是否解决了什么具体的问题,以及解决方案的质量如何。

相反,大奖颁给了“最佳数据可视化、最佳外部数据使用和最佳洞察力”。换句话说,黑客马拉松上获奖是因为你做了一些统计学家感兴趣的事情,而不是解决了别人的实际问题。我希望读者能从另一个角度看问题,即目标是服务,而不是自娱自乐。面向计算机科学的 Kaggle 竞赛[13]正是如此。

3

莫把万物归为机器学习

现在,让我们来看看机器学习的兴起是如何影响数据的使用的。毫无疑问,机器学习已经对我们利用数据解决问题的能力产生了巨大的影响。然而,我并不认为机器学习可以完全取代数据库社区开发的算法。

我希望读者可以考虑三个问题:

1. 许多涉及“大数据”的问题其实并不是真正的机器学习问题;

2. 很多机器学习倡导者会把原本不属于机器学习的方法归类到其中;

3. 许多机器学习方法产生的神秘模型不可解释或不可证明。

3.1 机器学习并非数据科学的全部

我认为,机器学习的一个公平的定义是利用数据创建某种模型的算法,并从中可以得到问题的答案。例如,可以使用机器学习建立垃圾邮件模型,将给定的电子邮件来喂养模型,从而判断是或不是垃圾邮件。但并非所有有用的解决方案都可以用模型来表示。例如,我们在前面提到了局部敏感哈希数据库(LSH) ,它是数据库社区处理数据的一种重要技术。LSH 是一种用于在数据集中查找类似项的技术,使用它就不必查看所有数据对了。在实际应用中,LSH 是一个非常强大的工具,但是它不属于机器学习模型。

3.2 机器学习倡导者有时把原本不属于机器学习的方法归入其中

比如说,聚类,它被定义为机器学习的一个分支,尽管早在机器学习出现之前,聚类就已经被研究过了。梯度下降法是另一个早于机器学习的例子,然而不知何故被普遍认为是一个机器学习的分支。另一个重要的例子是关联规则(一种常用的无监督学习算法)。关联规则于1993-1994年由拉凯什 · 阿格拉瓦尔和朋友首创,比几乎所有的机器学习概念都要早。我甚至记得曾经和一位机器学习的倡导者谈起,他提出 LSH“一定是机器学习,因为它真的是一个很好的方法。”但事实上,LSH 就是一个与机器学习毫无关系的大数据算法。

3.3 解释能力

通常,机器学习算法会得出正确的结论,而这些结论只有通过所展示的模型才能够解释。而这种模型往往是如此复杂,以至于对于普通用户来说毫无意义。更重要的是,这个模型,即便能够给出正确的诊断,但可能它的推理隐藏在处理一张百万像素的图像中。另一方面,有时候,我们有权要求解释。例如,如果你的保险公司提高了你的保险费率,原因是一些预测汽车事故的模型显示你的事故发生率提高了,至少你得知道为什么会这样。 

但是,非机器学习方法通常比机器学习模型更可解释。为了看出区别,以通过关联规则识别垃圾邮件为例。产生一组“规则”,在这种情况下可以是一组单词,它们在电子邮件中的出现表明它是垃圾邮件。

您可能认为这些规则就是垃圾邮件的模型,这也就是为什么机器学习倡导者认为关联规则属于机器学习。但实际上,用于寻找关联规则的算法并没有从数据中“学习”到一个模型。 

他们只是简单地计算包含某些单词的垃圾邮件的数量,如果这个数量足够高,他们就宣布一条规则,即包含这些单词的邮件是垃圾邮件。假如一个规则说,包含{ Nigerian,prince }单词的电子邮件是垃圾邮件。

相比之下,即使是最简单的机器学习技术,比如学习每个可能的单词的(正负)权重,以及在权重总和超过阈值时声明是垃圾邮件,也比基于关联规则的解决方案更准确。

但问题是关联规则方法是可解释的,而机器学习模型则不能。如果我真的是一个尼日利亚王子,我所有的电子邮件都被关联规则方法判定为垃圾邮件,那么至少我可以理解其中的原因。而另一方面,如果你问 gmail 为什么它判断某些东西是垃圾邮件,它通常的回答类似于“它看起来像其他垃圾邮件。”也就是说,gmail在使用的模型告诉你它是垃圾邮件,其余的无可奉告。

 4

我们不要责怪数据

我们经常会把社会的弊病归咎于数据,错误主要来源于:

1. 人们有意或无意地错误使用数据,或

2. 数据忠实地反映了现实问题。

4.1 数据滥用

在数据-科学-教育圆桌会议上,在第五次会议上有一个关于数据伦理的讨论[15]。举例说明,一个城市希望在犯罪高发的地区部署警力。警察们手握逮捕发生地的数据,结果是他们在那些地区确实逮捕了更多的人。但是,逮捕行动并不仅仅反映犯罪的发生,也反映了警察到场进行逮捕行动本身。数据造成了误区。就是说,历史原因,警察优先被派往某些地区,数据真实地反映出,在那些地区有更多的人被捕。也许本质上只是因为,在警力不足的地方,逮捕率较低。

数据可能使偏见永久化的另一个常见例子,一家公司在决定晋升时总是歧视妇女。他们希望利用机器学习建立一个AI系统,来处理简历,并识别那些与他们成功晋升员工相似的特征。

但数据显示,女性候选人往往不会成功,机器学习算法便从数据中学习,从而拒绝女性的申请。这些数据再次延续了现有的偏见。但是这些数据并没有产生偏见,而是人产生了偏见。 

4.2 数据反映了一个我们不喜欢的世界 

有一种对数据使用的指责是,由数据产生的系统反映了说话者所反对的社会的某些东西。这种误读的一个明显例子涉及 Word2Vec [13] ,这是谷歌几年前开发的一个系统(后来被BERT所取代) ,该系统将单词嵌入到高维向量空间中,从而使具有相似意义的单词具有相近的向量。直观的想法是看看通常围绕在单词 w 周围的单词。那么 w 的向量就是与其周围关联单词的方向的加权组合。例如,我们预期「可口可乐」和「百事可乐」有相似的向量,因为人们谈论它们的方式大致相同。

当观察到某些向量方程的规律时,问题就出现了,例如作为向量,

 London − England + France = Paris

也就是说,伦敦和巴黎,作为各自国家的首都和最大的城市,周围有许多反映这种地位的词汇。我们预期伦敦周围会有更多与英格兰有关的词汇,所以把它们拿走,代之以与法国有关的词汇。 

这个观察结果无关紧要,但是其他方程式引起了一些严重的争议,例如,

doctor − man + woman = nurse 

这个方程式,它是在要求“给我找一个像医生一样的职业词汇,但要更倾向于女性。”。大约50% 的医生是女性,但接近90% 的护士是女性。我们希望医生和护士这两个词是相似的,但是后者更多地出现在「她」这样的词附近。所以这个等式是有一定道理的。

这些负面例子真正反映的是,在这个社会中,女性更有可能和护理岗位联系到一起。我同意,很可能在不远的将来,情况会变化。但我的观点是: 不要责怪数据。像 Word2Vec 或者 BERT 这样的系统,当在一个像维基百科这样的大型语料库上训练时,将会反映出广大公众使用的语言,而这种数据的使用又会反映出人们普遍认为是真实的东西,不管我们是否喜欢这个真实。 

The Last Word 

我希望读者可以吸收到以下想法:

•数据及其管理仍然是数据科学的本质。

•尽管机器学习非常重要,但它远非实现有效数据科学所需的唯一工具或想法。

•尽管数据有误用的情况,但如果数据反映的是世界的本来面目,而不是我们希望的那样,我们就不应该责怪数据本身。

原文链接:http://sites.computer.org/debull/A20june/p8.pdf

未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱,为提升企业,行业与城市的智能水平服务。

  如果您对实验室的研究感兴趣,欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/484933.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Leetcode--1028. 从先序遍历还原二叉树(Java)

我们从二叉树的根节点 root 开始进行深度优先搜索。 在遍历中的每个节点处,我们输出 D 条短划线(其中 D 是该节点的深度),然后输出该节点的值。(如果节点的深度为 D,则其直接子节点的深度为 D 1。根节点的…

赛迪展望 | 一文了解“2021年中国先进计算产业发展趋势”

来源:中国电子信息产业发展研究院内容提要人类社会的组织、生产和生活方式正伴随着计算技术创新、融合、扩散、升级,呈现深刻的变革趋势。计算对经济社会发展和产业能级跃升的驱动作用日益凸显。展望2021年,先进、新型的计算基础架构&#xf…

物理如何证明上帝的存在?

来源:利维坦文:Monica Grady译:苦山校对:兔子的凌波微步原文:www.bbc.com/future/article/20210301-how-physics-could-prove-god-exists“我曾在一次研讨会上听到下面这个问题——当时我还相信上帝(现在我…

XSS攻击的防御

XSS攻击的防御 XSS 攻击是什么 XSS 又称 CSS,全称 Cross SiteScript,跨站脚本攻击,是 Web 程序中常见的漏洞,XSS 属于被动式且用于客户端的攻击方式,所以容易被忽略其危害性。其原理是攻击者向有 XSS 漏洞的网站中输入…

【前沿技术】2021年AI将改变制造业的6大应用趋势

来源:智能研究院 如今制造行业流行的是什么?我想,这可少不了“数字转换”、“工业4.0”、“人工智能(AI)”...下面,就让我们一起看看AI如何改变制造业。▍一、用于缺陷检测的深度学习在制造中,生产线中的缺陷检测过程变得越来越…

MarkDown/Html在线转换(支持代码高亮,可复制到微信公众号、今日头条)

MarkDown/Html在线转换能够将md渲染成html并且能保持代码高亮,可以方便的复制待格式的html粘贴到微信公众号,CSDN,简书,博客园,开源中国等。 扫码体验在线助手小程序 我是java代码public static void main(String[] ar…

脑机接口简史——假如这篇推送是你靠意念打开的

来源:脑极体未来智能实验室的主要工作包括:建立AI智能系统智商评测体系,开展世界人工智能智商评测;开展互联网(城市)云脑研究计划,构建互联网(城市)云脑技术和企业图谱&a…

一文读懂深度学习中的各种卷积

来源:海豚数据科学实验室编辑:王萌(深度学习冲鸭公众号)我们都知道卷积的重要性,但你知道深度学习领域的卷积究竟是什么,又有多少种类吗?研究学者 Kunlun Bai 发布了一篇介绍深度学习的卷积文章,用浅显易懂…

为什么信不过AI看病?数据集小、可靠性差,AI医疗任重道远

来源:机器之心近年来,AI 在医疗诊断中的应用受到了越来越多的关注,也出现了一些实际的应用场景,如药物筛选、AI 诊断。但似乎正确的 AI 医疗诊断难以实现,这是哪些原因造成的呢?本文探讨并汇总了人们对 AI …

人工智能学派之间的「联姻」——Yoshua 新作居然用DL「复活」了符号主义

来源:混沌巡洋舰 近日,Yoshua Bengio及其团队利用深度学习,开发出了一套可以揭示丰富视觉环境中的潜在规则的「神经生产系统」,使得现在暂时沉寂的符号人工智能重新恢复了活力。相信大家都知道,目前人工智能的主要学派…

25万亿规模!中国智慧城市建设刚需在哪?

来源:帮尼资讯如果说当下在中国新基建中最火的名词是什么,智慧城市这四个字几乎脱口而出。而在雪亮工程已经基本结束的当下,智慧城市接过了雪亮工程的大旗,成为了对安防企业来说利润最大、保障最稳的政府类项目。前瞻产业研究院预…

浅析Serverless

近两年来,Serverless 概念在开发者中交流的越来越多,主题分享呈现爆发趋势。有人说:Serverless 正在改变未来软件开发的模式和流程,它就是云计算的未来。 在一个应用中包含了多个功能,如订单创建、订单查询和订单修改…

复兴or幻象?VR的2021三重门

来源:脑极体从2020年底开始,无论你日常看一些数码博主的评测,还是喜欢了解科技产业的动态、投融资的报道,都能在媒体中了解到这么一个信号:2021,VR复兴了!当然,这个表述有很多说法&a…

24张GIF图,让你秒懂非标自动化机构的原理

来源:工业机器人1.组合加紧机构↓↓2.凸轮连杆组合输送薄板机构↓↓3.热合联动↓↓4.凸轮双摇杆机构单独运动↓↓5.步进输送机构↓↓6.输出构件作间歇运动↓↓7.输出构件作间歇运动等宽凸轮间歇移动机构↓↓8.双摇杆夹紧机构↓↓9.不自锁推拉式夹紧机构↓↓10.双肘杆…

机器学习的通俗讲解

来源:dataxon译者:Ahong机器学习人人都在谈论,但除了老师们知根知底外,只有很少的人能说清楚怎么回事。如果阅读网上关于机器学习的文章,你很可能会遇到两种情况:充斥各种定理的厚重学术三部曲(我搞定半个定…

边缘计算有哪些关键技术?

来源:智东西、金融界等网站原文链接:https://mp.weixin.qq.com/s/5QAHPMM8SNE3J8fpmDKFaQ如果要问物联网圈最火的概念有哪些?5G与边缘计算一定榜上有名,两者看似风马牛不相及,实则却在冥冥之中自有交集。5G时代&#x…

论文《城市大脑的定义与建设规范探讨》在IEEE(ICBAIE)发表

来源:城市大脑全球标准研究组城市大脑全球标准研究组论文《Discussion on the Definition and Construction Principles of City Brain》,2021年3月在2021 IEEE 2nd International Conference on Big Data, Artificial Intelligence and Internet of Thi…

修改类名后依旧按照原先的类名进行加载

在springMvcMybatis的项目里面 修改了一个类名,之后编译的时候报出了以下的错误 试过 clean也没有作用 黑色涂鸦部分为原先的类名 删掉target文件夹解决了问题 原因是target会保存之前编译好的路径,编译时如果再根据之前的路径去寻找,一定…

谷歌的深度学习在AI芯片中找到了一条关键路径

来源:AI前线 作者:Tiernan Ray译者:Sambodhi策划: 刘燕一年前,ZDNet 与谷歌大脑总监 Jeff Dean谈到 了该公司如何使用人工智能来推进定制芯片的内部开发,从而加快软件开发。Dean 指出,在有些情…

脑机接口猴子通过“意念”打游戏!马斯克:未来能让瘫痪者用意念玩手机

来源:新智元它是Pager,一只9岁的恒河猴,来自Neuralink,最近它刚刚get了新技能——用意念玩乒乓球游戏。6个星期前,Pager的脑袋里被植入了两个叫N1 Link的装置,工作人员用香蕉奶昔诱惑它玩游戏,屏…