AI 崛起,科学家的天下,程序员的谢幕

一边,在移动互联网时代掉队的微软迅速组织起来了一个万人的 AI 团队。

另一边,Facebook、Google 在对各个技术公司进行买买买,为了在 AI 时代的探索中铺好路。

多年前「深蓝」下国际象棋时,所有人都觉得人工智能还是遥不可及的学问。

直到 AlphaGo 的出现,才警醒了世人,刺激了市场。

AI 终究是个要以学术为根本的学科,AI 时代下程序员的下一步该如何走?

回顾一下移动互联网所带来的机遇,不难想象掌握人工智能、深度学习等学科技能,将为一线工作带来怎样的优势。

可是, AI 人才的培养要求严苛的数学门槛、成本高昂的实战训练,让很多一线的程序员望而生畏:

  • 一线互联网公司对 AI 工程师的要求是什么样的?

  • 我应当掌握哪些 AI 技能树?

  • 从事 AI 工作一定要有硕士、博士的知识储备吗?

  • 从零学习人工智能真的需要5年以上时间吗?

  • 系统化学习和实战中总结哪个更高效?

于是,我们请来了一些大厂的 AI 技术专家来给那些迷失在「AI 道路门口」的程序员们,讲讲 AI 工程师细分职业的区别,趋势等等等...

如何成为一名数据科学家?

在回答这个问题之前,希望你先想想另外一个问题:为什么要成为数据科学家?

当然,如果你是为了10万美元的年薪也无可厚非,但是我衷心希望你能将这个职业和自己的价值感挂钩。

因为成为数据科学家的路途会很辛苦,但如果你将其看成是实现个人价值的一种方式,那么追寻目标才能带来长久的成就感,在这个过程中会感到快乐并且动力十足。 

一、数据科学家应掌握的技能包

要回答“如何成为……”这样的问题,首先当然需要知道想要成为的对象是个什么样子。图1 是一个数据科学家的技能表。 

首先编程能力是数据科学家需要的基本技能。数据读取、整合、建模分析和可视化的整个环节都需要用到这些工具。

在业界环境中,整个数据链大概分为5块: 

1. 云端数据存储系统。比如亚马逊的云服务 AWS,大数据可以用分布式存储在 S3中。

AWS 更像是一个生态系统,里面有数据库,也可以在上面运行一些代码,比如实时从社交网站上爬取数据储存在云端数据库中。 

2. 安全门。读写数据都需要经过这道安全门,这个部分主要是由公司的 IT 部门建立。

安全门有3种限制访问权限的方式: IP 地址:只接受从特定 IP 地址的访问;职能:比如只有头衔是数据科学家和数据工程师的人有权限;用户名密码。

公司常常会同时使用上面3种方法,也就是有特定职能,从特定 IP 地址,通过用户名和密码访问。

数据工程师会训练数据科学家穿越这重重安全门。这里对数据科学家的计算机要求并不高,只需要知道一些基本的 Linux 就可以,苦活累活都让工程师们包揽了。

3. SQL 客户端。数据科学家需要通过 SQL 从数据库中读取相应数据。

根据数据库的不同,使用 SQL 的类型和语法也略有不同,但大体上非常相似。掌握基本的数据库读取操作是非常必要的。

4. 数据分析。现在使用最广的数据分析语言是 R 和 Python,熟练使用至少其中一门语言几乎成为数据科学家的标配。

只会 SAS 行不?不行。当然,这些都只是工具,工具是解决问题的手段,而非目的。

你必须要有一个能用来进行数据分析的工具,偏好因人而异,但选择工具的时候最好考虑工具的灵活和可扩展性。

5. 结果报告。这里会用到基于 D3.js 的交互可视化,Rmarkdown 自动化报告以及 Shiny 应用。

数据科学家需要另外掌握的一个重要的技能是分析建模。图2 是数据流程构架图,这个模块可以进一步细分成下面几个: 

数据科学家应该具备基本的概率统计知识,能够熟练进行 t 检验,开方检验,拟合优度检验,方差分析。

能够清楚地解释 Spearman 秩相关和 Pearson 相关之间的区别。熟悉抽样、概率分布、实验设计相关概念。

了解贝叶斯统计(很快就能在白板上写下贝叶斯定理)。

不是所有的应用数据科学领域都需要用到贝叶斯,即使你所处的行业用得很少,了解贝叶斯的基本概念也是很有必要的。

使用“贝叶斯”这个词的方式有很多。但其主要代表了一种解释概率的特别方式。

用流行的术语表达,贝叶斯推断不外乎计算在某假设下事情可能发生的方式的数目。事情发生方式多的假设成立的可能性更高。

一旦我们定义了假设,贝叶斯推断强制施行一种通过已经观测到的信息进行纯逻辑的推理过程。

所以,在很多应用场景中,贝叶斯也更加合适。 

机器学习相关技能。知道什么是有监督学习,什么是无监督学习。知道重要的聚类、判别和回归方法。

知道基于罚函数的模型,关联法则分析。常用的黑箱模型:随机森林、自适性助推、神经网络模型。

如果从事心理相关的应用的话(如消费者认知调查),还需要知道基本的潜变量模型,如探索性因子分析、验证性因子分析、结构方程模型。

在应用过程中还需要加强对模型中误差的来源分类的理解,知道相应误差的应对方法。

当前存在的机器模型太多,理解模型误差可以帮助你有效地通过尝试少量模型找到足够好的那个。 

除了技术能力以外,还需要其他一些非技术的能力。这些包括将实际问题转化成数据问题的能力,这一过程需要交流,也就要求良好的交流沟通能力。

关注细节,分析是一个需要细心和耐心的职业。还有就是展示结果的能力,如何让没有分析背景的客户理解模型的结果,并且最终在实践中应用模型的结论。

这个单子还可以一直列下去。看起来是不是不只一点吓人?

其实这个技能单是动态的,你一开始不必具有上面列出的所有技能,但在工作过程中,需要不断的学习成长。

一个优秀的数据科学家不是通过数据找到标准答案的人,而是那个接受和适应这个充满不确定性的世界,给出有用方案的人。

一个成熟的数据科学家面对分析项目时会看到多种可能性和多种分析方法,给出结果后依旧时刻关注这个结果,不停地保持小幅度频繁更新。

再次强调自学能力和成为一个终生学习者是优秀的数据科学家的必要条件。

二、如何获取上述技能?

现在你对数据科学家需要具备的技能应该有个大致的概念了。接下来的问题是如何获取这些技能。这个问题的答案部分取决于你的专业背景。

当前数据科学家的背景其实很杂,这里主要着眼于数学、统计、计算机或其它定量分析学科(电子工程、运筹学等)本科以上学历的情况。

数学统计背景的学生,需要加强计算机方面能力的培养。而计算机背景的学生需要更多地了解统计理论。

如果是其他定量分析学科,可能需要同时加强这两者。其他专业的学生成为数据科学家有两种情况:

从事和自己专业相关行业公司的数据分析。比如在一些精准农业应用的公司,会常常看到数据科学家是生态学博士,或者土壤学博士。

其实这些人不能算是广义上的数据科学家。

因为他们处理的问题局限于非常特定的领域,对生态和土壤的了解的要求高于对数据分析的要求。

虽然是其他专业,但是本身有着很强的计算机技能,比如物理学专业的学生会成为数据科学家或者量化交易员,这因为他们通常具有很好的编程能力。

关于数据科学家的学位背景,根据2017年的统计数据,美国的数据科学家41%有博士学位,49%有硕士学位,只有10%是本科。

研究生博士期间的课题最好偏向机器学习、数据挖掘或预测模型。其次需要的是数据库操作技能。

在工作中通常需要用 SQL 从数据库读取数据。对于统计或者数学专业的学生,在校期间可能不需要使用 SQL,因此不太熟悉。

这没有关系,我也是工作以后才开始使用 SQL 的。但你要确保自己至少精通一种程序语言,之后遇到需要用到的新语言可以迅速学习。

现在有大量的 MOOC 课程,以及一些在线的数据科学视频,都是提升自己的很好方法。 

三、在数据科学的应用中有哪些常见误区?

会用函数跑模型就可以了?

会开车的只是司机,要当汽车工程师,仅靠会开车是不行的。这点放在数据科学领域也是一样。

不需要你背下模型背后的所有数学公式,但是至少需要学过一遍,让你可以翻着书解释模型机理。

模型精确度越高越好?

在实际应用中需要同时考虑收益和成本。如果模型精确度是90%,但是提高到95%需要复杂得多的模型。

因此需要大量的计算设备投入,同时带来的边际收益很小的话,满足于精确度小的模型就好了。模型选择和评估可能是数据分析流程中最难的环节。

技术过硬就是尚方宝剑?

人常常是不理性的,我们的行为和对周遭的态度受感情的影响。我们总是会对所有的事情加上自己的主观判断。

当然,你公司的同事,领导看待你的方式也受到主观的影响。很遗憾,这个主观的感受通常更多的来自于你作为人的部分,而不是机器的部分。

你觉得自己技术好是一件事情,领导觉得你技术好是另一件事情,领导觉得你的技术是有用的那又是新的一件事情了。

所以“做技术”不等于“情商低点没关系”。

技术不断更新,被泡沫裹挟着失去方向?

不断升级将会是一种常态,这不仅仅是数据科学,你必须这么做,因为所有的东西都在升级,就像军备竞赛一样,升级已经成为事物本身的存在方式。

面对不懂的技术,要么就说不懂,要么就去学。其实你真正鼓起勇气,开始认真去学习这门技术的时候,会发现其实没有那么神秘。

当然,马上又会有新的神秘的东西出现,这个过程又会重复。但你就是在这样循环反复中成长的,产品是这样,人也是这样。

四、数据科学领域现状

我们从数据上看看数据科学的现状吧。从最大的职业社交网站领英( LinkedIn )的数据看来,数据科学家职位的年薪在7.5万~17万美元之间,中位数是11.3万美元。

其中雇佣数据科学家的公司主要集中在微软、IBM、Fackbook、亚马逊、Google这些计算机互联网公司,图3 为前10名雇佣数据科学家最多的公司。

数据科学家所处的行业也集中在科技或者研究性组织,图4是排名前10的行业。

不同公司的数据科学团队架构不一样。主要有如下2种:

1. 独立式。独立的数据科学部门,会有一个数据科学总监这样的领导角色领导。这通常在研究所或者公司科研型的部门。

对于数据科学家而言,在这样部门的优点是能够和很多其他数据科学家有技术上的交流,也有明确的职业轨道。

缺点是,很难脱颖而出,需要和很多其他科学家竞争一些资源(比如培训会议的机会)。

2. 嵌入式。数据科学家各自嵌入到不同的职能部门中。常见的是市场部的数据科学家。

领导者就是传统的市场总监。在这样的团队优势在于直接和公司高层接触,影响商业决策。

因为独特很容易脱颖而出获取很多行业内培训和会议的机会,而且市场部是核心部门,如果你想在这个公司发展,这是很好的地方。

缺点就是,无法和其他数据科学家交流,很多东西需要自己决策,周围人只能选择相信或者不相信你,但不能给出特别的帮助。

久了会有在专业上落后的危险,所以需要充分利用在市场部的培训会议资源,积极参与数据科学家社区。

最大的缺点是没有清晰的职业轨迹,因为在市场内部的分析团队不会太大。

如果你的职业目标是最后管理一个大团队或者职能的话,这可能不能满足你的目标。但其职位本身从初级到高级的跨度可以很大。

数据科学家这个职位还比较新,所以从团队建设和职业轨迹上都还在发展,具有很好的前景。

希望你能成为一个不断思考,终生学习的数据科学家!

《如何成为一名数据科学家》

作者:林荟

美国杜邦公司商业数据科学家,美国爱荷华州立大学博士。《套路!机器学习:北美数据科学家的私房课》作者。2017年1月至今主持美国统计协会市场营销在线数据科学讲座。


点击左下角“阅读原文”,获取更多人工智能技能!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/525754.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

lammps计算聚合物例子_LAMMPS模拟聚合物结构,非晶态聚合物变形行为的模拟,纳米线变形模拟,单轴张力模拟,晶格参数计算...

推荐一个网站,上面有LAMMPS模拟聚合物结构,非晶态聚合物变形行为的模拟,纳米线变形模拟,单轴张力模拟,晶格参数计算的lammps脚本,如下面是晶格参数计算的lammps脚本,具体网址是:LAMMPS Inputs Archives - LAMMPS Tube​lammpstube…

jenkins 手动执行_Jenkins Git client插件命令执行漏洞(CVE201910392)

0x00 漏洞描述Jenkins发布了官方安全公告:https://jenkins.io/security/advisory/2019-09-12/,Git客户端插件中的系统命令执行漏洞。Git客户端插件接受用户指定的值作为调用的参数,git ls-remote以验证指定URL处是否存在Git存储库。这是以允许具有Job/Co…

怎么把html表复制到word里,怎么把网页表格复制到word

在互联网时代我们经常要在网页中找资料,文字进行复制粘贴调整格式还好,但是有时网页中的表格复制到Word中,表格的边框线全没了,怎么办呢?那么下面就由学习啦小编给大家分享下把网页表格复制到word的技巧,希望能帮助到…

设置maven 参数调休_IDEA 使用 Maven构建Spark项目

上一篇讲了普通构建spark项目 这次分享用Maven构建Spark项目,中间遇到了很多坑!其根本原因是Scala 与 Spark的版本不一致!本次环境:Java1.8Scala 2.11.8Spark spark-2.1.0-bin-hadoop2.6.tgz 新建Maven项目图1.选择顺序图2.随便写…

语音识别现状与工程师必备技能

作者 | 陈孝良 责编 | 胡永波 目前来看,语音识别的精度和速度比较取决于实际应用环境,在安静环境、标准口音、常见词汇上的语音识别率已经超过95%,完全达到了可用状态,这也是当前语音识别比较火热的原因。 随着技术的发展&#xf…

从来不敷面膜的人_女人睡觉前,敷面膜洗还是不洗?很多人都做错了,难怪皮肤总不好...

敷面膜是众多女孩子在晚上都会进行的一个护肤工作,大家都知道像一些明星几乎是每天都要敷一片面膜的,不过她们是因为长期话大浓妆才比较勤,我们一般工作的女孩子大约一周三次就可以了。面膜可以让我们的皮肤迅速吸收水分和营养,这…

智慧气象机器_智慧电缆隧道火热建设中 传感器+机器人成标配

智慧城市是指利用各种信息技术或创新概念,将城市的系统和服务打通、集成,以提升资源运用的效率,优化城市管理和服务,以及改善市民生活质量。它把新一代信息技术充分运用在城市中各行各业基于知识社会下一代创新(创新2.0)的城市信息…

算法代码中的循环矩阵在哪体现_「Machine Learning 学习小结」| 向量在梯度下降算法当中的应用...

写在前面:在之前的文章当中提到过,学习梯度下降算法,可能需要一点点线性代数的知识。在本篇文章当中,我们的讨论就涉及到了向量。笔者也曾提到,不妨把向量看成对数据进行批量操作的一种工具,这样可能对我们…

计算机用户 图片存储位置,手机相册在哪个文件夹,详细教您手机图片存放在哪里...

现在使用手机的用户是越来越多了,手机质量都非常好,因此才会受到许多人的褒奖。不过有用户却遇到了,用手机拍摄了照片或者用手机截图,手机连上电脑后,却在电脑上找不到图片,怎么办,下面&#xf…

揭秘京东文件系统JFS的前世今生,支持双11每秒约10万个对象同时读写

背景 作为一家大规模的自营式电商企业,京东需要存储海量的非结构化数据:商品图片、订单文本、仓库流转记录、App客户端文件、日志文件、内部文档等。对于存储这些数据,之前并没有统一的解决方案,都是各个业务线自行解决——MySQL …

计算机的复数英语怎么读,英语的复数怎么读

目录1.土豆的复数英语怎么读1.英语中的月份的复数 怎么读 读音? months 最后两个辅音,是否可以省略一个。2.在清辅音后,读/s/,如books, 在浊辅音和元音后,读/z/,如dogs,boys 当然。3.名词复数词尾的读音:1)…

java map清除值为null的元素_Java中的集合框架大总结

直接上图:从上面的集合框架图可以看到:Java集合框架主要包括两种类型的容器,一种是集合(Collection),存储一个元素集合;另一种是图(Map),存储键/值对映射。Collection接口又有两个子接口,List和…

土木转计算机 但计算机学院不好,土木妹子转计算机,较高三维水科研,求指导!...

2016-12-15velvetvalley个人情况当前阶段大四本科院校某中流985,top30本科专业土木,辅修计算机GPA土木91.6/100,10/111;计算机88.4/100,1/23GRE/GMAT3284语言成绩109目标专业计算机科学计划留学年份:2017秋季个人背景:一个水国创,…

关于计算机软件系统分类能够匹配的有,以下关于计算机软件系统分类能够匹配的有:...

摘要:关于够匹比低高强钢筋筋的极限度钢大强度应变拉伸。统分变异系数主观权是一种法赋赋权法。关于够匹对第的说确的物流法正三方是(。...关于够匹比低高强钢筋筋的极限度钢大强度应变拉伸。最大区边压应缘力在受压,计算机软件系破坏截面梁正适筋受弯时…

开关 关闭_无论用什么品牌手机,这个开关要关闭,以免耗电又卡顿,抓紧试试...

各位观众老爷大家好,给大家鞠个躬,每天给大家分享实用的生活小妙招。现在我们的工作生活中已经离不开手机,平时用久了手机卡顿不流畅,耗电也会随之增加,其实有可能是没有把这几个开关关闭,今天和大家分享一…

卷积神经网络中十大拍案叫绝的操作

来源 | 知乎作者 | Professor hoCNN从2012年的AlexNet发展至今,科学家们发明出各种各样的CNN模型,一个比一个深,一个比一个准确,一个比一个轻量。我下面会对近几年一些具有变革性的工作进行简单盘点,从这些充满革新性的…

提高代码可读性的10个技巧

在本文中,作者从注释,缩进,代码分组,命名方式等方面,介绍了10个提高代码可读性的技巧,供读者学习和借鉴。 以下为译文:如果你的代码很容易阅读,这也会帮助你调试自己的程序&#xff…

内蒙古一级计算机考试时间2015,2017年内蒙古计算机一级考试报名时间

2017年内蒙古计算机一级考试报名时间一级分为DOS版和Windows版,考核应试者计算机基本知识和使用微机系统的初步能力,那么,2017年内蒙古计算机一级考试报名时间是什么时候?一起来看看:2017年内蒙古计算机一级考试报名时…

去掉数组最后一个元素_leetcode 34. 在排序数组中查找元素的第一个和最后一个位置每天刷一道leetcode算法系列!...

作者:reed,一个热爱技术的斜杠青年,程序员面试联合创始人前文回顾:leetcode1. 两数之和--每天刷一道leetcode系列!leetcode2. 两数相加--每天刷一道leetcode系列!leetcode3. 无重复字符的最长子串--每天刷一…

6个月清洗近千亿条微信支付交易记录,他们要搞什么大事情?

本文转载自腾讯技术工程官方号背景:2013年8月,微信红包上线。2014年春节微信红包引爆社交支付。2015年春晚红包摇一摇,推动微信红包在全国迅速普及。此后,每逢节假日或特殊日子,人们都会自主的兴起发红包,使…