数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的。
作者 | Jingles
译者 | 香槟超新星,责编 | 夕颜
出品 | CSDN(ID:CSDNnews)
根据《哈佛商业评论》的说法,数据科学家是21世纪最性感的工作。在现在这个大数据的世界中,数据科学家们用AI 或深度学习方法来发掘宝贵的商业见解。
而我,挂着“数据科学家”头衔已经五年了,却仍然没有完全搞明白自己究竟哪里性感,除了我新烫的头发让我看起来像个韩国欧巴(此词通常用来代指韩国偶像剧男主角)。
确实,云的出现和商业向互联网的转移已经引起了数据爆炸。这导致了某些部门中对于数据科学家的需求增加,造成此职位的人员短缺。
但是,数据科学家们每天工作的具体内容包括哪些呢?
通过分析LinkedIn上发布的职位,我们就能找到这个问题的答案。以下是我总结的一些主要的点:
对业务和客户有所了解,对假设进行验证
建立起预测模型和机器学习流水线,进行A / B测试
给商业的利益相关者们概念化分析
开发能够做出业务决策的算法
实验并研究新技术和方法来提升技术能力
这些听上去都很性感,对不对?
除非你的工作内容只包含处理Kaggle数据集,否则以上这些工作描述只是数据科学家们生活的一小部分。
以下调查结果来自CrowdFlower,对一个数据科学家的一个平常的工作日作了以下总结:
数据科学家大部分时间都在干什么?图源:CrowdFlower
如上表所示,数据科学家的大部分时间都花在了收集数据集,清洗以及组织数据上。
21世纪的高性能数据吸尘器
数据湖(data lakes)是集中存储公司所有数据的地方。它们使组织能够使用公司的数据来搭建机器学习模型和仪表板。而不幸的是,有的人会认为数据湖是可以用来丢弃数据的垃圾场,或一个超大的硬盘。
许多组织(公司)在开始布施数据湖时,对应该如何处理收集到的数据一无所知。他们说:“那我们就把所有的东西都收集起来吧。”尽管数据湖的意义在于将公司的所有数据集中在一个地方,但根据特定项目的需求来对它进行设计仍然是至关重要的。不进行计划几乎就像创建一个“新建文件夹”,然后把公司的全部数据都复制粘贴到里面一样。
当你把桌面当做数据垃圾场时
从历史上看,糟糕的计划很少会带来,或者说从未带来过定义明确的元数据,这就使所有人都很难搜索(并找到)自己所需的数据。数据科学家们会经常需要与不同部门联系来获取数据。他们可能需要从各种类型的数据所有者那里得到有关数据的信息。只对数据进行存储而不进行分类简直大错特错。要使数据湖变得有用起来的关键是要确保元数据是被明确定义的。
由于数据管控或数据所有者们(他们往往是不同部门的利益相关者)太过忙碌,重要数据的获取甚至可能需要花费数周的时间。在等待的游戏结束之后,到头来数据科学家们却有可能发现数据不相关或存在严重的质量问题。
当数据科学家终于能接触到数据时,他们还需花费大量时间来探索以及熟悉数据。他们必须将这些混乱的数据块重组成与项目需求一致的新表。
21世纪的高层次数据清洁工
每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。
“不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。
“不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。
“重复”是一个常见的问题。让我来跟你分享一个以前我在电子商务公司工作时发生的事情吧。按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。
该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。
那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!
另外,在过去五年中,作为一名数据科学家,我收到数据中的一部分是由公司员工手动输入的。这些数据存在Excel表中,其中许多都不准确,不完整,不一致。
无论数据是来自人工手动输入还是机器日志,在现实世界中数据整理都占了工作内容的很大的比例。数据科学家们必须面对这件事情。为了使监督学习能有效,我们需要可靠的,带有标签(label)的数据。只有数据被正确地标记了,你才可能建立起预测模型,但没人喜欢标记数据。
许多人将这种情况描述为80/20规则。数据科学家们只有20%的时间是用于构建模型的,而其他80%的时间则用于收集,分析,清洗和重组数据。脏数据是一个普通数据科学家工作中最耗时的一项。
有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。
数据科学家们在数据中漫游时确实会发现一些东西。但在开始训练任何模型之前,数据科学家必须首先成为数据清洁工。数据需要经历清洗,数据需要经历标记。
我是一名数据科学家...
我并不觉得我的工作性感。
我40%的功能像个吸尘器,另外40%像清洁工。
而最后的20%......就当是个算命先生吧。
原文链接:
https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845
本文为CSDN翻译文章,转载请注明出处。
《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战
推荐阅读:时间复杂度的表示、分析、计算方法……一文带你看懂时间复杂度!
Linux 会成为主流桌面操作系统吗?
识别率惊人的 GitHub 口罩检测 | 原力计划
西二旗大厂复工记
智能合约编写之Solidity的基础特性
Javascript函数之深入浅出递归思想,附案例与代码!
真香,朕在看了!