菜鸟学习数据科学家 5 大误区

全世界只有3.14 % 的人关注了

数据与算法之美


你准备好要成为一名数据科学家,积极的参加Kaggle比赛和Coursera的讲座。虽然这一切都准备好了,但是一名数据科学家的实际工作与你所期望的却是大相径庭的。


640?wx_fmt=gif


本文研究了作为数据科学家新手的5个常见错误。这是由我在塞巴斯蒂安·福卡德(Dr. Sébastien Foucaud)博士的帮助下一起完成的,他在指导和领导学术界与行业领域的年轻数据科学家方面拥有20多年的经验。本文旨在帮助你更好地为今后的实际工作做准备。


640?wx_fmt=jpeg


1、Kaggle成才论


640?wx_fmt=jpeg

Source: kaggle.com on June 30 18.


你通过参加Kaggle比赛,练习了数据科学领域的各项技能。如果你能把决策树和神经网络结合起来那就再好不过了。说实话,作为一个数据科学家,你不需要做那么多的模型融合。请记住,通常情况下,你将花80%的时间进行数据预处理,剩下的20%的时间用于构建模型。


640?wx_fmt=jpeg


作为Kaggle的一份子对你在很多方面都有帮助。所用到的数据一般都是彻底处理过的,因此你可以花更多的时间来调整模型。但在实际工作中,则很少会出现这种情况。一旦出现这种情况,你必须用不同的格式和命名规则来收集组装不同来源的数据。


做数据预处理这项艰苦的工作以及练习相关的技能,你将会花费80%的时间。抓取图像或从API中收集图像,收集Genius上的歌词,准备解决特定问题所需的数据,然后将其提供给笔记本电脑并执行机器学习生命周期的过程。精通数据预处理无疑会使你成为一名数据科学家,并对你的公司产生立竿见影的影响。


2、神经网络(Neural Networks)无所不能


在计算机视觉或自然语言处理的领域,深度学习模型优于其它机器学习模型,但它们也有很明显的不足。


640?wx_fmt=jpeg


神经网络需要依赖大量的数据。如果样本很少,那么使用决策树或逻辑回归模型的效果会更好。神经网络也是一个黑匣子,众所周知,它们很难被解释和说明。如果产品负责人或主管经理对模型的输出产生了质疑,那么你必须能够对模型进行解释。这对于传统模型来说要容易得多。


640?wx_fmt=jpeg


正如詹姆斯·勒(James Le)在一个伟大的邮件中所阐述的那样,有许多优秀的统计学习模型,自己可以学习一下,了解一些它们的优缺点,并根据用例的约束来进行模型的实际应用。除非你正在计算机视觉或自然语言识别的专业领域工作,否则最成功的模型很可能就是传统的机器学习算法。你很快就会发现,最简单的模型,如逻辑回归,通常是最好的模型。


640?wx_fmt=jpeg

来源:算法来自scikit-learn.org.


3、机器学习是产品


在过去的十年里,机器学习既受到了极大的吹捧,也受到了很大的冲击。大多数的初创公司都宣称机器学习可以解决现实中遇到的任何问题。


640?wx_fmt=png

来源:过去5年谷歌机器学习的趋势


机器学习永远都不应该是产品。它是一个强大的工具,用于生产满足用户需求的产品。机器学习可以用于让用户收到精准的商品推荐,也可以帮助用户准确地识别图像中的对象,还可以帮助企业向用户展示有价值的广告。


作为一名数据科学家,你需要以客户作为目标来制定项目计划。只有这样,才能充分地评估机器学习是否对你有帮助。


4、混淆因果和相关


有90%的数据大约是在过去的几年中形成的。随着大数据的出现,数据对机器学习从业者来说已经变得越来越重要。由于有非常多的数据需要评估,学习模型也更容易发现随机的相关性。


640?wx_fmt=jpeg

来源: http://www.tylervigen.com/spurious-correlations


上图显示的是美国小姐的年龄和被蒸汽、热气和发热物体导致的命案总人数。考虑到这些数据,一个学习算法会学习美国小姐的年龄影响特定对象命案数量的模式。然而,这两个数据点实际上是不相关的,并且这两个变量对其它的变量没有任何的预测能力。


当发现数据中的关系模式时,就要应用你的领域知识。这可能是一种相关性还是因果关系呢?回答这些问题是要从数据中得出分析结果的关键点。


5、优化错误的指标


机器学习模型通常遵循敏捷的生命周期。首先,定义思想和关键指标。之后,要原型化一个结果。下一步,不断进行迭代改进,直到得到让你满意的关键指标。


640?wx_fmt=jpeg


构建一个机器学习模型时,请记住一定要进行手动错误分析。虽然这个过程很繁琐并且比较费时费力,但是它可以帮助你在接下来的迭代中有效地改进模型。参考下面的文章,可以从Andrew Ng的Deep Learning Specialization一文中获得更多关于改进模型的技巧。


注意以下几个关键点:

  • 实践数据处理

  • 研究不同模型的优缺点

  • 尽可能简化模型

  • 根据因果关系和相关性检查你的结论

  • 优化最有希望的指标


原文标题:《Top 5 Mistakes of Greenhorn Data Scientists》

版权归原作者所有,转载仅供学习使用,不用于任何商业用途,如有侵权请留言联系删除,感谢合作。


640?wx_fmt=png

640?wx_fmt=png


640?wx_fmt=png

我们联合「机械工业出版社、图灵新知、人民邮电出版社、华东师范大学出版社、科学出版社」给大家精心挑选了 100 本 优秀数学读物免费 送给大家。包含:

640?wx_fmt=png

假如你想参与,在后台回复「锦鲤即可,xxxx(各自公众号名称)“史上最惨锦鲤”正在等你。

活动时间:1月30号至2月11号

结果公布时间:2月11号



640?wx_fmt=png精品课程推荐:

640?wx_fmt=png

640?wx_fmt=png

选购数学科普正版读物

严选“数学思维好物”

送给孩子的益智礼物   |   办公室神器

算法工程师成长阅读   |   居家高科技

理工科男女实用型礼物精选 

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

640?wx_fmt=jpeg

----640?点击头像关注----

640?wx_fmt=png

超级数学建模

640?wx_fmt=png

数据与算法之美

640?wx_fmt=jpeg

少年数学家

640?wx_fmt=jpeg

数锐学堂

640?wx_fmt=jpeg

惊喜酱(个人号)

640?wx_fmt=jpeg

玩酷屋COOL

640?wx_fmt=gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/301843.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java多线程 sycophantic_Java多线程volatile和synchronized总结

volatile是轻量级的synchronized,在多处理器(多线程)开发中保证了共享变量的“可见性”。可见性表示当一个线程修改了一个共享变量时,另外一个线程能读到这个修改的值。正确的使用volatile,能比synchronized的使用和执行成本更低,…

春节特惠活动┃不只是舒适,简直是享受,Google公司用的腰靠,到底有什么秘密?...

▲数据汪特别推荐点击上图进入玩酷屋之前小木推荐“德国MINICUTE人体工学腰垫”受到了大家一致的好评和争相购买。小木为什么推荐这一款原因是:据统计,我国腰椎病患者已经突破2亿人。30~40岁人群中,患有颈腰椎病的占比59.1%!而且有…

春节特惠活动┃给孩子讲100个科学道理,不如带他做这些趣味实验!

▲数据汪特别推荐点击上图进入玩酷屋玩具和学习看似是两个对立的东西,孩子天性爱玩,家长却希望孩子能多学习。不一定非要啃课本才能汲取知识,有时候,在轻松有趣的游戏中也能学到课堂上学不到的知识。让学习变得有趣、高效——给孩…

linux java 进程监控工具_推荐4个好用的Linux监控工具

本文介绍了作者常用的 4 个 Linux 监控工具,希望可以帮助读者提高生产力。身为一个运维开发人员,如果你不知道眼下当前服务器底层操作系统中正在发生什么,那就有点合眼摸象了。其实,你可以根据相应数据做出一定的推测,…

看TensorFlow如何玩转深度学习

自 2015 年 11 月 9 号发布之后,TensorFlow 逐渐成为人工智能领域最广泛运用的深度学习框架。TensorFlow 是一个大规模机器学习的开源框架,提供了多种深度神经网络的支持。不仅 Google 在自己的产品线使用 TensorFlow,包括联想、小米、新浪网…

春节特惠活动┃数学无用论??我们欠孩子真正的数学阅读

▲数据汪特别推荐点击上图进入玩酷屋说到数学,我想起了13年一场轰动行业各界的“数学无用论”!那时微博上有个话题叫做#让数学滚出高考#,超过7成网友都表示支持,这可怕的比例就能说明在中国由于数学差导致命运被洗牌的真不在少数……

python pytest allure_python测试框架pytest和测试报告allure的联合使用-----测试套件

最近采用jenkinspythonpytestallure写了一些自动化测试用例。碰到这样一种场景:如果我创建了2个测试任务,测试任务1包含2个测试用例test_a.py和test_b.py,测试任务2包含一个测试用例test_c.py。一. 常规操作假设我的代码目录结构有如下3个测试…

那天,我无意间瞟了眼程序员的桌面……

全世界只有3.14 % 的人关注了数据与算法之美爱因斯坦曾说过“要是乱糟糟的桌面意味着杂乱无章的脑袋,那空白桌面意味着什么呢?似乎很多在某些领域拥有天赋的人都不喜欢干净整洁的桌面,包括乔布斯和扎克伯格也是,甚至有的人一看到整…

.Net Core with 微服务 - Ocelot 网关

上一次我们通过一张架构图(.Net Core with 微服务 - 架构图)来讲述了微服务的结构,分层等内容。从现在开始我们开始慢慢搭建一个最简单的微服务架构。这次我们先用几个简单的 web api 项目以及 ocelot 网关项目来演示下网关是如何配置&#x…

60 Minutes专访李开复:泛人工智能可能永远实现不了

全世界只有3.14 % 的人关注了数据与算法之美尽管你听说过人工智能,但机器仍然无法像人类一样思考,但在过去的几年里,它们已经具备了学习的能力。突然之间,我们的设备睁开了眼睛和竖起了耳朵,汽车开始无人行驶。今天&am…

API之子窗口创建 (转)

子窗口的创建非常非常重要 步骤:1、新建窗口类,在窗口类中指名对应的自定义的窗口过程。窗口类类名要唯一,它 是各窗口类相互区别的标识。注意,类名或为静态变量,或为全局变量,因为程 序随时都用他们。…

java 支付宝 退款_Java 支付宝支付,退款,单笔转账到支付宝账户(支付宝支付)

最近一直在接触第三方,刚接入完支付宝的API做一下总结,个人能力薄弱有不对的地方望指教. 做的是一个小型电商项目,所以会接入第三方的支付和登入功能, 第一次接入第三方撸了很多官方文档.然后创建应用选择需要接入的功能,有些应用是需要签约的签约就好了审核蛮快的.以上应用申…

DB排行榜更新,.NET Core+MySQL成主流!

上图是DB-Engines数据库流行度最新排行榜,Oracle、MySQL、SQLServer虽几经下滑,然而还是遥遥领先的前三名。后起之秀PostgreSQL和MongoDB持续增长,然而在体量上还相差甚远,可以预见这些年,三大关系型数据库的主流地位是…

史上最惨锦鲤即将来袭!奖品堪比5年高考3年模拟!

全世界只有3.14 % 的人关注了数据与算法之美在锦鲤盛行的2018年我们超级数学建模也跟风来了一个“史上最惨锦鲤”活动为什么叫史上最惨锦鲤呢因为平常看一本数学书就已经头疼了何况我们奖品还是100本数学书试问除了学霸还有谁能承受这种殊荣巧的是最后的得主还真是一个学霸那就…

人工智能读心术

全世界只有3.14 % 的人关注了数据与算法之美对于许多无法发出声音的人来说,他们想说的话会通过某种信号隐藏在大脑中。人类无法直接破译这些信号。但是,最近有三个研究小组在“破译”这种大脑语言密码上取得了一定进展。Science杂志最新报道了哥伦比亚大…

今日港股期货(港股期货今日交易动向)

港股期货收涨0.6% 首次突破31000点 今日港股期货大涨,形势一时看好。其中,恒生指数期货一度突破31000点关口,创出历史新高。分析人士表示,市场情绪积极,投资者对于全球经济复苏前景和中国经济增长的预期不断提高&…

春节特惠活动┃一张纸一幅图,竟然提高了10倍的学习和工作效率!?

▲数据汪特别推荐点击上图进入玩酷屋人类大脑的容量远远超出一般人的想象,时到21世纪的今天,我们对大脑的运用远远不够。大脑机能的使用率基于我们的思维模式,而思维导图正是开发大脑中最有效的利器!之前小木给大家推荐了一套基于…

java class文件 代码_java_基础——用代码编译.java文件+加载class文件

java_基础——用代码编译.java文件加载class文件java_基础——用代码编译.java文件加载class文件【简单编译的流程】package com.zjm.www.test;import java.io.IOException;import javax.tools.JavaCompiler;import javax.tools.JavaCompiler.CompilationTask;import javax.too…

WPF 记一个Popup踩坑记录

看名字就知道,它是一个弹出控件,顾名思义,我们可以用它来实现类似Combobox那种,点击后弹出下面选项列表的操作。记录:需求:有一个文本框 ,鼠标点击后,弹出一个Popup。我编写了以下xa…

通过电话号码获取姓名 (+86或者飞信)

2019独角兽企业重金招聘Python工程师标准>>> /** * 通过电话号码获取姓名 (86或者飞信) */ /* public String getContactName(String phoneNum) { String contactName "";// 处理电话号码格式问题 if (phoneNum.length() > 11) {ContentResolver cr …