Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元


Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月 8 日,这家机构被谷歌收购,6 月 6 日又宣布用户数量超过了 100 万人。互联网创业方兴未艾,人工智能的浪潮又接踵而来,而贯穿其中的数据科学则在这更迭交替中显得愈发重要。


最近,这一社区首次进行了机器学习/数据科学现状调查。在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle 也将调查结果封装成了匿名数据集以供大家自行分析。




以下报告包括本次调查的所有主要结果,其中包含的主要内容有:


  1. 虽然 Python 很可能是机器学习最常用的编程语言,但统计学家更多地使用 R 语言。

  2. 平均而言,数据科学家的年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻 9 岁。

  3. 有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。




数据科学从业者画像


年龄:平均年龄为 30 岁,但国家间略有不同,例如印度的平均年龄就比澳大利亚年轻了9岁,而中国受访者的平均年龄为 25 岁。


工作状态:受访者中有全职工作的占 65.7%,正在找工作的占 12.7%。而在中国,这两个数字分别为 53.5% 和 17%。




职位:数据科学领域的工作划分非常繁杂,比如在伊朗和马来西亚,最普遍的头衔是“科学家”或“研究员”,而在中国,最流行的头衔则是“机器学习工程师”。




年薪:全球数据科学从业者的平均年薪是 55441 美元,美国的数据科学从业者平均薪资最高,达 11 万美元,而这一数字在中国只有 29835 美元(或许和样本数量较少有关)。




学历:数据科学从业者中比例最高的是硕士,但博士的薪水显然更高。




数据科学从业者工作内容


数据科学方法使用:Logistic 回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。



语言使用:Python 依旧是数据科学家最常用的语言,而 R 语言也很流行。




数据类型:关系型数据是开发者在工作中最常用的数据类型,而在学术研究和国防安全领域,文本型数据使用的更多。




代码分享:58.4% 的受访者在工作中使用 Git 分享他们的代码。但大公司中的开发者更倾向于使用电子邮件来分享他们的代码,而创业公司则对云的方式情有独钟。




工作障碍:脏数据(dirty data)显然又名列榜首。通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。




数据科学新手入行


语言选择:数据显示 Python 和 R 语言依旧是推荐程度最高的两种语言,而 Python 的受追捧程度又是 R 语言的两倍之高。




学习资源:数据科学是一个快速变化的领域,不断的学习已经成为了一种必需的技能,而目前行业内的人会更多通过 Stack Overflow Q&A,Conferences 和 Podcasts 来进行学习。除此以外,官方的文档和观看 Youtube 视频也不失为有效地学习途径。




开源数据获取:dataset aggregators、https://www.kaggle.com/datasets




找工作:首选方法是直接联系招聘者或建立自己的人脉网络




报告下载:https://www.kaggle.com/surveys/2017

调查数据下载:https://www.kaggle.com/kaggle/kaggle-survey-2017

 


作为一个集合社群、竞赛、用数据解决问题三个核心于一身的平台不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)跟想要解决的问题丢到 Kaggle 上去,请数据专家来帮忙解答。


从另一个角度来看,Kaggle 上聚集了众多对机器学习、人工智能有兴趣的人,包括数据科学家、统计高手、工程师或者是学生,他们利用数据采矿、深度学习、统计等方式搭建出解答问题的模型或算法,胜出者就有机会获得礼品、奖金或是工作机会,当然也有不少参加比赛的人是纯粹出自兴趣。

 

例如,全球最大卫星影像公司 Planet,主要是透过卫星影像监控亚马逊雨林的变化,但他们发现还是有些问题无解,例如无法分辨雨林的减少是人为造成还是自然因素,所以在 Kaggle 上举办比赛,希望可以有更好的算法来保护亚马逊雨林,吸引了不少关注生态议题的人参与。

 


正因为 Kaggle 上高手云集,吸引不少大型企业、机构都到此举办比赛,比如Google、Facebook、Airbnb、沃尔玛、Benz、Bosch、英特尔、西班牙国际银行(Santander)、欧洲量子物理研究所(CERN)等,而且奖金额度更已有突破百万美元等级的案例。

  

图丨Kaggle上奖金排名前五的竞赛


Kaggle 创始人 Anthony Goldbloom 在澳洲墨尔本大学毕业后,曾经在《经济学人》杂志当过实习记者,之后进入澳洲联邦政府财政部(Australian Treasury)、澳洲储备银行(RBA)担任经济计量学家。当时他就预见数据科学将在未来扮演重要的角色,就在澳洲曾建立了一个数据科学家的线上社群。但他心想,为何不把数据开放,让大家通过比赛的方式找到最好的算法?


图丨Kaggle 创始人 Anthony Goldbloom 


所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 在接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/305019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

mysql设置表名字为占位符_这可能是把MySQL存储引擎讲解的最清楚的一篇文章了

存储引擎是MySQL的组件,用于处理不同表类型的SQL操作。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以获得特定的功能。使用哪一种引擎可以灵活选择,一个数据库中多个表可以使用不同引擎…

linux开发板显示横向彩虹,给 Linux 终端的输出添加彩虹特效的命令

原标题:给 Linux 终端的输出添加彩虹特效的命令正文如果认为Linux命令行很无聊并且没有任何乐趣,那么您错了,真实的Linux多么有趣和淘气。在本文,我将介绍一个名为“ lolcat ”的实用小工具,该实用工具在终端中产生彩虹…

Delphi 与 DirectX 之 DelphiX(46): TDIB.DoAntiAlias;

本例效果图:代码文件:unit Unit1;interfaceusesWindows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,Dialogs, DIB, StdCtrls;typeTForm1 class(TForm)DXPaintBox1: TDXPaintBox;Button1: TButton;Button2: TButton;procedure Button1Click(Sender: T…

Web API实现微信公众平台开发-服务器验证

背景最近开发微信公众号相关接口,在这里记录下微信公众号相关各项功能的实现。先决条件1、一台可部署web服务的服务器或者云平台(本地可以搞个花生壳域名)。2、一个可以正常使用的微信公众账号,开始的时候使用它的测试号。3、Visu…

每天20分钟,只需一年,一年级学生英语听力达到六年级水平!关键是坚持一点都不难!

导读: 除了语文数学这种常规科目,最让家长们焦虑的就是英语。现在的孩子,英语启蒙都很早,但是对英语的兴趣总是开始还可以,越往后越没动力和兴趣,稍微遇到点挫折就不想坚持了。钱也花了,好老师也…

python爬取论坛付费内容_Python爬虫抓取论坛关键字过程解析

前言: 之前学习了用python爬虫的基本知识,现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员,想用爬虫程序搜索某论坛中对于某些演员的讨论热度,并按照日期统计每天的讨论量。 这个项…

相对完善的Java通过JDBC操纵mysql的例子

工具类: Code1import java.sql.Connection; 2import java.sql.DriverManager; 3import java.sql.ResultSet; 4import java.sql.SQLException; 5import java.sql.Statement; 6 7 8public final class JDBCUtils { 910 private JDBCUtils(){}11 12 private static Strin…

如何在 ASP.Net Core 中使用 File Providers

ASP.Net Core 为了便于获取文件和文件夹信息,监视文件变更, 在文件系统中提供了一个抽象层:File Providers, 这篇文章将会讨论如何使用 File Providers 。File Provider 抽象层 file prodivers 实现了 IFileProvider 接口&#xf…

对5种主流编程语言的吐槽

不可否认,想要成为一名优秀的程序员确实是需要掌握多种编程语言。通过这几年的自虐式学习,小编也慢慢的掌握了这些编程语言。接下来要为大家,介绍五款让人又爱又恨的编程语言! 1.C 语言 C 语言给人的感觉,就是一位神秘…

WM中的OutLook开发和操作

昨天闲来无视,学习了一下WM的基本开发。看WM有约的那套教程心里痒痒,于是下载了SDK,看看DEMO,在Sample中的示例进行加工。小有一点心得。其实总的来说难度也不是很大,以前没有做过FORM的程序,都是WEB上面的…

苹果手机运行python_iPhone是卖的最好的手机?用Python照样把他玩弄鼓掌之间!

关于 iOS 的技术解读有很多,但是却鲜有设备可视化同步的介绍文章。本文一起了解下这个酷炫的 iOS 黑科技。我们的任务很简单——如上图所示,实时获取设备的当前方向。 UIDevice.current.orientation 首先,需要调用 beginGeneratingDeviceOrie…

这几个动图告诉你科学的神奇,看完瞬间觉得智商都提高了

生活中简单平常的事物和现象背后,往往有着奇妙的原理,赶快跟着一起来看看涨点知识吧! 夹心雪糕的制作原理 ▼ 难怪雪糕大小,厚度都一模一样 原来都是从一个模子里出来的 ▼ 煎饼可以统一翻面 再也不用担心烤焦了 ▼ 冰淇淋蛋筒的制…

自定义 ocelot 中间件输出自定义错误信息

自定义 ocelot 中间件输出自定义错误信息Introocelot 中默认的 Response 中间件在出错的时候只会设置 StatusCode 没有具体的信息,想要展示自己定义的错误信息的时候就需要做一些自定义了,对 ocelot 中的 Response 中间件做了一些小改动,实现…

盘点小坏蛋的礼物

我们家小坏蛋一天天长大了,妈妈从觉得很辛苦过渡到习惯了很辛苦,苦中作乐的妈妈终于抽出空来写博客啦! 为什么叫他小坏蛋呢?因为他吃饭不乖。没满月的时候蛮乖的,每顿奶都吃的很香,咕咚咕咚的喝下去&#x…

为什么对gRPC做负载均衡会很棘手?

在过去的几年中,随着微服务的增长,gRPC在这些较小的服务之间的相互通信中获得了很大的普及,在后台,gRPC使用http/2在同一连接和双工流中复用许多请求。使用具有结构化数据的快速,轻便的二进制协议作为服务之间的通信介质确实很有吸…

给新手程序猿的16个必备小妙招

写在前面: 这个文章核心并不是程序优化的具体技巧,而是拿到一个问题如何思考和利用工具的通用方法。比如即使我们不知道 profiler 这个东西,通过搜索"代码 每一行 时间"也可以很快知道有这样的工具叫做 profiler,并且学…

python字符串设置字体_python怎么更改字符串后几位

python更改字符串后几位的方法:可以利用replace()函数来实现。replace()函数可以把字符串中的旧字符串替换成新字符串,并返回替换后的新字符串。具体使用方法如:【str.replace("is", "was")】。可以利用replace()函数来修…

程序猿的双十一最佳攻略

讲个恐怖故事 一年一度虐汪“光棍节”又来了 小天拍拍(不存在的)胸脯告诉大家 这个节日 我陪你们 买买买! 限时特惠专场 1 welcome 7天教你学会数学建模及Matlab编程 数学建模涉及的内容比较广泛,比如碎纸片问题中所涉及的图像识…

关于Word中审阅的一个问题!

前两天,在帮一个杂志撰稿的过程中,有一个关于Word审阅的问题。(以下内容以Word2007为例) 本身,审阅的应用不算困难。 我们可以为文章添加“批注”,或是你的上级对文章进行修改,他们可以开启“审…

ASP.NET Core - 在ActionFilter中使用依赖注入

上次ActionFilter引发的一个EF异常,本质上是对Core版本的ActionFilter的知识掌握不够牢固造成的,所以花了点时间仔细阅读了微软的官方文档。发现除了IActionFilter、IAsyncActionFilter的问题,还有一个就是依赖注入在ActionFilter上的使用也是需要注意的…