Kaggle 发布首份数据科学从业报告 | 不及美国同行1/3,中国数据科学家平均年薪约3万美元


Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月 8 日,这家机构被谷歌收购,6 月 6 日又宣布用户数量超过了 100 万人。互联网创业方兴未艾,人工智能的浪潮又接踵而来,而贯穿其中的数据科学则在这更迭交替中显得愈发重要。


最近,这一社区首次进行了机器学习/数据科学现状调查。在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle 也将调查结果封装成了匿名数据集以供大家自行分析。




以下报告包括本次调查的所有主要结果,其中包含的主要内容有:


  1. 虽然 Python 很可能是机器学习最常用的编程语言,但统计学家更多地使用 R 语言。

  2. 平均而言,数据科学家的年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻 9 岁。

  3. 有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。




数据科学从业者画像


年龄:平均年龄为 30 岁,但国家间略有不同,例如印度的平均年龄就比澳大利亚年轻了9岁,而中国受访者的平均年龄为 25 岁。


工作状态:受访者中有全职工作的占 65.7%,正在找工作的占 12.7%。而在中国,这两个数字分别为 53.5% 和 17%。




职位:数据科学领域的工作划分非常繁杂,比如在伊朗和马来西亚,最普遍的头衔是“科学家”或“研究员”,而在中国,最流行的头衔则是“机器学习工程师”。




年薪:全球数据科学从业者的平均年薪是 55441 美元,美国的数据科学从业者平均薪资最高,达 11 万美元,而这一数字在中国只有 29835 美元(或许和样本数量较少有关)。




学历:数据科学从业者中比例最高的是硕士,但博士的薪水显然更高。




数据科学从业者工作内容


数据科学方法使用:Logistic 回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。



语言使用:Python 依旧是数据科学家最常用的语言,而 R 语言也很流行。




数据类型:关系型数据是开发者在工作中最常用的数据类型,而在学术研究和国防安全领域,文本型数据使用的更多。




代码分享:58.4% 的受访者在工作中使用 Git 分享他们的代码。但大公司中的开发者更倾向于使用电子邮件来分享他们的代码,而创业公司则对云的方式情有独钟。




工作障碍:脏数据(dirty data)显然又名列榜首。通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。




数据科学新手入行


语言选择:数据显示 Python 和 R 语言依旧是推荐程度最高的两种语言,而 Python 的受追捧程度又是 R 语言的两倍之高。




学习资源:数据科学是一个快速变化的领域,不断的学习已经成为了一种必需的技能,而目前行业内的人会更多通过 Stack Overflow Q&A,Conferences 和 Podcasts 来进行学习。除此以外,官方的文档和观看 Youtube 视频也不失为有效地学习途径。




开源数据获取:dataset aggregators、https://www.kaggle.com/datasets




找工作:首选方法是直接联系招聘者或建立自己的人脉网络




报告下载:https://www.kaggle.com/surveys/2017

调查数据下载:https://www.kaggle.com/kaggle/kaggle-survey-2017

 


作为一个集合社群、竞赛、用数据解决问题三个核心于一身的平台不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)跟想要解决的问题丢到 Kaggle 上去,请数据专家来帮忙解答。


从另一个角度来看,Kaggle 上聚集了众多对机器学习、人工智能有兴趣的人,包括数据科学家、统计高手、工程师或者是学生,他们利用数据采矿、深度学习、统计等方式搭建出解答问题的模型或算法,胜出者就有机会获得礼品、奖金或是工作机会,当然也有不少参加比赛的人是纯粹出自兴趣。

 

例如,全球最大卫星影像公司 Planet,主要是透过卫星影像监控亚马逊雨林的变化,但他们发现还是有些问题无解,例如无法分辨雨林的减少是人为造成还是自然因素,所以在 Kaggle 上举办比赛,希望可以有更好的算法来保护亚马逊雨林,吸引了不少关注生态议题的人参与。

 


正因为 Kaggle 上高手云集,吸引不少大型企业、机构都到此举办比赛,比如Google、Facebook、Airbnb、沃尔玛、Benz、Bosch、英特尔、西班牙国际银行(Santander)、欧洲量子物理研究所(CERN)等,而且奖金额度更已有突破百万美元等级的案例。

  

图丨Kaggle上奖金排名前五的竞赛


Kaggle 创始人 Anthony Goldbloom 在澳洲墨尔本大学毕业后,曾经在《经济学人》杂志当过实习记者,之后进入澳洲联邦政府财政部(Australian Treasury)、澳洲储备银行(RBA)担任经济计量学家。当时他就预见数据科学将在未来扮演重要的角色,就在澳洲曾建立了一个数据科学家的线上社群。但他心想,为何不把数据开放,让大家通过比赛的方式找到最好的算法?


图丨Kaggle 创始人 Anthony Goldbloom 


所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 在接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/305019.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

sequelize模型关联_关于Sequelize连接查询时inlude中model和association的区别详解

前言大家都知道在使用Sequelize进行关系模型(表)间连接查询时,我们会通过model/as来指定已存在关联关系的连接查询模型,或是通过association来直接指定连接查询模型关系。那么,两者各应该在什么场景下使用呢?一、 示例准备模型定义…

mysql设置表名字为占位符_这可能是把MySQL存储引擎讲解的最清楚的一篇文章了

存储引擎是MySQL的组件,用于处理不同表类型的SQL操作。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以获得特定的功能。使用哪一种引擎可以灵活选择,一个数据库中多个表可以使用不同引擎…

linux开发板显示横向彩虹,给 Linux 终端的输出添加彩虹特效的命令

原标题:给 Linux 终端的输出添加彩虹特效的命令正文如果认为Linux命令行很无聊并且没有任何乐趣,那么您错了,真实的Linux多么有趣和淘气。在本文,我将介绍一个名为“ lolcat ”的实用小工具,该实用工具在终端中产生彩虹…

Delphi 与 DirectX 之 DelphiX(46): TDIB.DoAntiAlias;

本例效果图:代码文件:unit Unit1;interfaceusesWindows, Messages, SysUtils, Variants, Classes, Graphics, Controls, Forms,Dialogs, DIB, StdCtrls;typeTForm1 class(TForm)DXPaintBox1: TDXPaintBox;Button1: TButton;Button2: TButton;procedure Button1Click(Sender: T…

Web API实现微信公众平台开发-服务器验证

背景最近开发微信公众号相关接口,在这里记录下微信公众号相关各项功能的实现。先决条件1、一台可部署web服务的服务器或者云平台(本地可以搞个花生壳域名)。2、一个可以正常使用的微信公众账号,开始的时候使用它的测试号。3、Visu…

每天20分钟,只需一年,一年级学生英语听力达到六年级水平!关键是坚持一点都不难!

导读: 除了语文数学这种常规科目,最让家长们焦虑的就是英语。现在的孩子,英语启蒙都很早,但是对英语的兴趣总是开始还可以,越往后越没动力和兴趣,稍微遇到点挫折就不想坚持了。钱也花了,好老师也…

python爬取论坛付费内容_Python爬虫抓取论坛关键字过程解析

前言: 之前学习了用python爬虫的基本知识,现在计划用爬虫去做一些实际的数据统计功能。由于前段时间演员的诞生带火了几个年轻的实力派演员,想用爬虫程序搜索某论坛中对于某些演员的讨论热度,并按照日期统计每天的讨论量。 这个项…

pygame里面物体闪烁运动_Pygame-游戏中的运动

本来,在上一次pygame的教程中,我只是顺手拿了微信“打飞机”里的图来演示用鼠标控制图片位置的操作。后来觉得,这个游戏还算比较适合用来做例子,也有朋友反馈说想做这个游戏,那不如就以“打飞机”为例来说python游戏开…

定义一个1 1=11 用c语言什么输出来,问题 A: C语言11.1(示例代码)

问题 A: C语言11.1时间限制: 1 Sec 内存限制: 32 MB献花: 265 解决: 228[献花][花圈][TK题库]题目描述完成一个对候选人得票的统计程序。假设有3个候选人,名字分别为Li,Zhang和Fun。使用结构体存储每一个候选人的名字和得票数。记录每一张选票的得票人…

相对完善的Java通过JDBC操纵mysql的例子

工具类: Code1import java.sql.Connection; 2import java.sql.DriverManager; 3import java.sql.ResultSet; 4import java.sql.SQLException; 5import java.sql.Statement; 6 7 8public final class JDBCUtils { 910 private JDBCUtils(){}11 12 private static Strin…

如何在 ASP.Net Core 中使用 File Providers

ASP.Net Core 为了便于获取文件和文件夹信息,监视文件变更, 在文件系统中提供了一个抽象层:File Providers, 这篇文章将会讨论如何使用 File Providers 。File Provider 抽象层 file prodivers 实现了 IFileProvider 接口&#xf…

2020年python2停止更新_Python核心团队计划2020年停止支持Python2,NumPy宣布停止支持计划表...

Python核心团队计划在2020年停止支持Python 2。NumPy项目自2010年以来一直支持Python 2和Python 3,并且发现支持Python 2对我们有限的资源增加了负担;因此,我们最终计划将停止支持Python 2。现在,我们已经进入了社区支持的Python …

对5种主流编程语言的吐槽

不可否认,想要成为一名优秀的程序员确实是需要掌握多种编程语言。通过这几年的自虐式学习,小编也慢慢的掌握了这些编程语言。接下来要为大家,介绍五款让人又爱又恨的编程语言! 1.C 语言 C 语言给人的感觉,就是一位神秘…

python自动化测试脚本怎么编写_编写自动化测试脚本心得---菜鸟入门篇

编写自动化测试脚本心得 -------- 菜鸟入门篇 本文中将不会讲解 ISEE 的测试原理、不说明 Python 的常用语法、不介绍 OTP 测试平 台的架构, 自动化测试组的牛人们已经为我们编写了很多这些方面的资料, 而且我也怕学艺 不精说的不对, 因为 ……

c语言修改windows系统时间,c语言实现系统时间校正工具代码分享

//*******************************************************************//Time Protocol是一种非常简单的应用层协议。它返回一个未格式化的32位二进制数字,//这个数字描述了从1900年1月1日午夜到现在的秒数。服务器在端口37监听协议请求,以//TCP/IP或者UDP/IP格式…

WM中的OutLook开发和操作

昨天闲来无视,学习了一下WM的基本开发。看WM有约的那套教程心里痒痒,于是下载了SDK,看看DEMO,在Sample中的示例进行加工。小有一点心得。其实总的来说难度也不是很大,以前没有做过FORM的程序,都是WEB上面的…

苹果手机运行python_iPhone是卖的最好的手机?用Python照样把他玩弄鼓掌之间!

关于 iOS 的技术解读有很多,但是却鲜有设备可视化同步的介绍文章。本文一起了解下这个酷炫的 iOS 黑科技。我们的任务很简单——如上图所示,实时获取设备的当前方向。 UIDevice.current.orientation 首先,需要调用 beginGeneratingDeviceOrie…

这几个动图告诉你科学的神奇,看完瞬间觉得智商都提高了

生活中简单平常的事物和现象背后,往往有着奇妙的原理,赶快跟着一起来看看涨点知识吧! 夹心雪糕的制作原理 ▼ 难怪雪糕大小,厚度都一模一样 原来都是从一个模子里出来的 ▼ 煎饼可以统一翻面 再也不用担心烤焦了 ▼ 冰淇淋蛋筒的制…

自定义 ocelot 中间件输出自定义错误信息

自定义 ocelot 中间件输出自定义错误信息Introocelot 中默认的 Response 中间件在出错的时候只会设置 StatusCode 没有具体的信息,想要展示自己定义的错误信息的时候就需要做一些自定义了,对 ocelot 中的 Response 中间件做了一些小改动,实现…

shapenet网络_GRNet网络:3D网格进行点云卷积,实现点云补全

Date:2020-11-23作者:三弟来源:GRNet网络:3D网格进行点云卷积,实现点云补全Gridding Residual Network for Dense Point Cloud Completion在点云分割方面,有一些方法尝试通过更通用的卷积操作来捕捉点云的空…