Kaggle 是互联网上最著名的数据科学竞赛平台之一,今年 3 月 8 日,这家机构被谷歌收购,6 月 6 日又宣布用户数量超过了 100 万人。互联网创业方兴未艾,人工智能的浪潮又接踵而来,而贯穿其中的数据科学则在这更迭交替中显得愈发重要。
最近,这一社区首次进行了机器学习/数据科学现状调查。在超过 16,000 名从业者的详尽答卷中,我们可以一窥目前业内的发展趋势。有趣的是,Kaggle 也将调查结果封装成了匿名数据集以供大家自行分析。
以下报告包括本次调查的所有主要结果,其中包含的主要内容有:
-
虽然 Python 很可能是机器学习最常用的编程语言,但统计学家更多地使用 R 语言。
-
平均而言,数据科学家的年龄在 30 岁左右,但是这个数字在不同的国家有所不同。例如,印度的受访者要比澳大利亚的平均年轻 9 岁。
-
有关被调查者教育程度,最普遍的学位是硕士,但是工资最高的($150k+)人群中,拥有博士学位的人稍稍多一点。
数据科学从业者画像
年龄:平均年龄为 30 岁,但国家间略有不同,例如印度的平均年龄就比澳大利亚年轻了9岁,而中国受访者的平均年龄为 25 岁。
工作状态:受访者中有全职工作的占 65.7%,正在找工作的占 12.7%。而在中国,这两个数字分别为 53.5% 和 17%。
职位:数据科学领域的工作划分非常繁杂,比如在伊朗和马来西亚,最普遍的头衔是“科学家”或“研究员”,而在中国,最流行的头衔则是“机器学习工程师”。
年薪:全球数据科学从业者的平均年薪是 55441 美元,美国的数据科学从业者平均薪资最高,达 11 万美元,而这一数字在中国只有 29835 美元(或许和样本数量较少有关)。
学历:数据科学从业者中比例最高的是硕士,但博士的薪水显然更高。
数据科学从业者工作内容
数据科学方法使用:Logistic 回归是工作之中最为常用的数据科学方法,不过神经网络使用更为频繁的国家安全领域除外。总的来说,数据科学中更常见的还是使用经典的机器学习算法,简单的线性与非线性分类器是数据科学中最常见的算法,而功能强大的集成方法也十分受欢迎。我们看到目前神经网络模型的使用频率要高于支持向量机,这可能是近来多层感知机要比使用带核函数的 SVM 更加广泛的表现。
语言使用:Python 依旧是数据科学家最常用的语言,而 R 语言也很流行。
数据类型:关系型数据是开发者在工作中最常用的数据类型,而在学术研究和国防安全领域,文本型数据使用的更多。
代码分享:58.4% 的受访者在工作中使用 Git 分享他们的代码。但大公司中的开发者更倾向于使用电子邮件来分享他们的代码,而创业公司则对云的方式情有独钟。
工作障碍:脏数据(dirty data)显然又名列榜首。通俗的讲,当一个事务正在访问数据,并且对数据进行了修改,而这种修改还没有提交到数据库中,这时,另外一个事务也访问这个数据,然后使用了这个数据。因为这个数据是还没有提交的数据,那么另外一个事务读到的这个数据是脏数据,依据脏数据所做的操作可能是不正确的。
数据科学新手入行
语言选择:数据显示 Python 和 R 语言依旧是推荐程度最高的两种语言,而 Python 的受追捧程度又是 R 语言的两倍之高。
学习资源:数据科学是一个快速变化的领域,不断的学习已经成为了一种必需的技能,而目前行业内的人会更多通过 Stack Overflow Q&A,Conferences 和 Podcasts 来进行学习。除此以外,官方的文档和观看 Youtube 视频也不失为有效地学习途径。
开源数据获取:dataset aggregators、https://www.kaggle.com/datasets
找工作:首选方法是直接联系招聘者或建立自己的人脉网络
报告下载:https://www.kaggle.com/surveys/2017
调查数据下载:https://www.kaggle.com/kaggle/kaggle-survey-2017
作为一个集合社群、竞赛、用数据解决问题三个核心于一身的平台,不论是企业、某个领域的研究组织、甚至是政府机构,都可以把数据集(dataset)跟想要解决的问题丢到 Kaggle 上去,请数据专家来帮忙解答。
从另一个角度来看,Kaggle 上聚集了众多对机器学习、人工智能有兴趣的人,包括数据科学家、统计高手、工程师或者是学生,他们利用数据采矿、深度学习、统计等方式搭建出解答问题的模型或算法,胜出者就有机会获得礼品、奖金或是工作机会,当然也有不少参加比赛的人是纯粹出自兴趣。
例如,全球最大卫星影像公司 Planet,主要是透过卫星影像监控亚马逊雨林的变化,但他们发现还是有些问题无解,例如无法分辨雨林的减少是人为造成还是自然因素,所以在 Kaggle 上举办比赛,希望可以有更好的算法来保护亚马逊雨林,吸引了不少关注生态议题的人参与。
正因为 Kaggle 上高手云集,吸引不少大型企业、机构都到此举办比赛,比如Google、Facebook、Airbnb、沃尔玛、Benz、Bosch、英特尔、西班牙国际银行(Santander)、欧洲量子物理研究所(CERN)等,而且奖金额度更已有突破百万美元等级的案例。
图丨Kaggle上奖金排名前五的竞赛
Kaggle 创始人 Anthony Goldbloom 在澳洲墨尔本大学毕业后,曾经在《经济学人》杂志当过实习记者,之后进入澳洲联邦政府财政部(Australian Treasury)、澳洲储备银行(RBA)担任经济计量学家。当时他就预见数据科学将在未来扮演重要的角色,就在澳洲曾建立了一个数据科学家的线上社群。但他心想,为何不把数据开放,让大家通过比赛的方式找到最好的算法?
图丨Kaggle 创始人 Anthony Goldbloom
所以,他把公司搬到硅谷从而创立了 Kaggle,依靠社群成功累积了庞大的用户, Goldbloom 在接受澳洲媒体采访时表示,“Kaggle 今日已经拥有一百万用户,未来几年还会成长十倍甚至百倍,因为这个领域的人才需求缺口还很大。