数据科学家是个性感的工作?我信你个鬼!

数据科学家40%是个吸尘器,40%是个清洁工,剩下20%是个算命的。


作者 | Jingles

译者 | 香槟超新星,责编 | 夕颜

出品 | CSDN(ID:CSDNnews)

根据《哈佛商业评论》的说法,数据科学家是21世纪最性感的工作。在现在这个大数据的世界中,数据科学家们用AI 或深度学习方法来发掘宝贵的商业见解。

 

而我,挂着“数据科学家”头衔已经五年了,却仍然没有完全搞明白自己究竟哪里性感,除了我新烫的头发让我看起来像个韩国欧巴(此词通常用来代指韩国偶像剧男主角)。

 

确实,云的出现和商业向互联网的转移已经引起了数据爆炸。这导致了某些部门中对于数据科学家的需求增加,造成此职位的人员短缺。

 

但是,数据科学家们每天工作的具体内容包括哪些呢?

 

通过分析LinkedIn上发布的职位,我们就能找到这个问题的答案。以下是我总结的一些主要的点:

 

  • 对业务和客户有所了解,对假设进行验证

  • 建立起预测模型和机器学习流水线,进行A / B测试

  • 给商业的利益相关者们概念化分析

  • 开发能够做出业务决策的算法

  • 实验并研究新技术和方法来提升技术能力

 

这些听上去都很性感,对不对?

 

除非你的工作内容只包含处理Kaggle数据集,否则以上这些工作描述只是数据科学家们生活的一小部分。

 

以下调查结果来自CrowdFlower,对一个数据科学家的一个平常的工作日作了以下总结:

       数据科学家大部分时间都在干什么?图源:CrowdFlower

 

如上表所示,数据科学家的大部分时间都花在了收集数据集,清洗以及组织数据上。

 

21世纪的高性能数据吸尘器

 

数据湖(data lakes)是集中存储公司所有数据的地方。它们使组织能够使用公司的数据来搭建机器学习模型和仪表板。而不幸的是,有的人会认为数据湖是可以用来丢弃数据的垃圾场,或一个超大的硬盘。

 

许多组织(公司)在开始布施数据湖时,对应该如何处理收集到的数据一无所知。他们说:“那我们就把所有的东西都收集起来吧。”尽管数据湖的意义在于将公司的所有数据集中在一个地方,但根据特定项目的需求来对它进行设计仍然是至关重要的。不进行计划几乎就像创建一个“新建文件夹”,然后把公司的全部数据都复制粘贴到里面一样。

 

当你把桌面当做数据垃圾场时

 

从历史上看,糟糕的计划很少会带来,或者说从未带来过定义明确的元数据,这就使所有人都很难搜索(并找到)自己所需的数据。数据科学家们会经常需要与不同部门联系来获取数据。他们可能需要从各种类型的数据所有者那里得到有关数据的信息。只对数据进行存储而不进行分类简直大错特错。要使数据湖变得有用起来的关键是要确保元数据是被明确定义的。

 

由于数据管控或数据所有者们(他们往往是不同部门的利益相关者)太过忙碌,重要数据的获取甚至可能需要花费数周的时间。在等待的游戏结束之后,到头来数据科学家们却有可能发现数据不相关或存在严重的质量问题。

 

当数据科学家终于能接触到数据时,他们还需花费大量时间来探索以及熟悉数据。他们必须将这些混乱的数据块重组成与项目需求一致的新表。

21世纪的高层次数据清洁工

 

每个与数据打交道的人都应该听说过“脏数据”(dirty data)一词。脏数据会破坏数据集的完整性,它的某些特征是不完整,不准确,不一致,或者重复的。

 

不完整”是指,有些必要特征空缺。例如,假设你的任务是预测房价,而“房子的区域”对于良好的预测至关重要,但这个值却是缺失的。这样的话预测房价可能对你来说就有很大的挑战性了,并且你的模型也可能表现欠佳。

 

“不准确”和“不一致”就是指,技术上来说数值是正确的,但在具体语境下却是错误的。例如,当一名员工更改了自己的地址,并且未更新,又或者,某项数据有很多版本,但数据科学家拿到的是旧版。

 

“重复”是一个常见的问题。让我来跟你分享一个以前我在电子商务公司工作时发生的事情吧。按照计划,当访问者单击“收取收据”按钮时,网站会向服务器发送一个响应,这就使得我们能够计数已收取了收据的用户数量。

 

该网站运行良好,直到一天某个变化发生了,但我对此一无所知。前端开发人员添加了另一个响应,在有人成功收取了收据时发送。理由是某些收据可能短缺,他们想记下单击了该按钮以及收取了收据的访问者。

 

那时,两个响应会被发送到同一日志表。我看着我的报表工具,发现收据的数量似乎在一夜之间翻了一番!因为我前一天部署了一个模型,所以想当然的认为是自己新模型的功劳。记得当时我还在内心里暗暗地为自己的小模型鼓掌致意了呢,后来才意识到只是因为重复计算而已!

 

另外,在过去五年中,作为一名数据科学家,我收到数据中的一部分是由公司员工手动输入的。这些数据存在Excel表中,其中许多都不准确,不完整,不一致。

 

无论数据是来自人工手动输入还是机器日志,在现实世界中数据整理都占了工作内容的很大的比例。数据科学家们必须面对这件事情。为了使监督学习能有效,我们需要可靠的,带有标签(label)的数据。只有数据被正确地标记了,你才可能建立起预测模型,但没人喜欢标记数据。

 

许多人将这种情况描述为80/20规则。数据科学家们只有20%的时间是用于构建模型的,而其他80%的时间则用于收集,分析,清洗和重组数据。脏数据是一个普通数据科学家工作中最耗时的一项。

 

有必要指出的是,数据的清洗是必不可少的。从乱糟糟的数据无法生产出良好的结果。你可能已经听说过“垃圾进,垃圾出”(Garbage in, garbage out.)这句话了。

 

数据科学家们在数据中漫游时确实会发现一些东西。但在开始训练任何模型之前,数据科学家必须首先成为数据清洁工。数据需要经历清洗,数据需要经历标记。

我是一名数据科学家...

我并不觉得我的工作性感。

 

我40%的功能像个吸尘器,另外40%像清洁工。

 

而最后的20%......就当是个算命先生吧。

原文链接:

https://towardsdatascience.com/data-scientist-the-dirtiest-job-of-the-21st-century-7f0c8215e845

本文为CSDN翻译文章,转载请注明出处。

《原力计划【第二季】- 学习力挑战》正式开始!即日起至 3月21日,千万流量支持原创作者!更有专属【勋章】等你来挑战

推荐阅读:时间复杂度的表示、分析、计算方法……一文带你看懂时间复杂度!
Linux 会成为主流桌面操作系统吗?
识别率惊人的 GitHub 口罩检测 | 原力计划
西二旗大厂复工记
智能合约编写之Solidity的基础特性
Javascript函数之深入浅出递归思想,附案例与代码!
真香,朕在看了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/518970.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深入搜索引擎原理

之前几段工作经历都与搜索有关,现在也有业务在用搜索,对搜索引擎做一个原理性的分享,包括搜索的一系列核心数据结构和算法,尽量覆盖搜索引擎的核心原理,但不涉及数据挖掘、NLP等。文章有点长,多多指点~~ 一…

印度版的“大众点评”如何将 Food Feed 业务从 Redis 迁移到 Cassandra

Zomato 是一家食品订购、外卖及餐馆发现平台,被称为印度版的“大众点评”。目前,该公司的业务覆盖全球24个国家(主要是印度,东南亚和中东市场)。本文将介绍该公司的 Food Feed 业务是如何从 Redis 迁移到 Cassandra 的…

利用Packer自定义镜像创建容器集群

阿里云容器服务Kubernetes集群支持CentOS操作系统,在绝大多数情况下可以满足客户的要求。但是有些客户由于业务系统对操作系统依赖比较高,希望定制化一些操作系统参数,则可以用自定义镜像来创建Kubernetes集群。 创建自定义操作系统镜像有两…

“远程”、“协作”风靡之际,你对TA知晓多少?

作者|晶少 转载|CSDN博客 2.4亿人在线使用文档协作无延宕…… 6万名武汉中小学生实力打造“远程课堂”活学高效…… 疫情以来,“远程”、“协作”持续大热,此局毋庸置疑。 根据QuestMobile最新发布的《2020中国移动互联网“战役”专题报告》显示&am…

蚂蚁金服OceanBase性价比是传统数据库的十倍

200名数据库领域从业三年以上的会员投票和专业的评委评选,在如此严苛的条件之下,蚂蚁金服金融级分布式关系数据库OceanBase 2.0依然获得了专家评审团的一致青睐,荣获2019中国数据库技术大会的“年度最佳创新产品”奖。 蚂蚁金服资深总监韩鸿源…

战疫内外,京东智联云如此“一鸣惊人”!

作者|晶少 转载|CSDN博客 鼠年春节,一场疫情突如其来地打破了人们平静的生活;但在滨州,一款名为“疫情助手”的上线软件却为滨州市民的疫情生活带来“雪中送炭”的丝丝温情,细微知著中人们深深感受到了京东诠释而来的“ABCDE”技…

亿级消息系统的核心存储:Tablestore发布Timeline 2.0模型

背景 互联网快速发展的今天,社交类应用、消息类功能大行其道,占据了大量网络流量。大至钉钉、微信、微博、知乎,小至各类App的推送通知,消息类功能几乎成为所有应用的标配。根据场景特点,我们可以将消息类场景归纳成三…

SLS机器学习最佳实战:日志聚类+异常告警

0.文章系列链接 SLS机器学习介绍(01):时序统计建模SLS机器学习介绍(02):时序聚类建模SLS机器学习介绍(03):时序异常检测建模SLS机器学习介绍(04)…

大数据成长之路:谈谈那些必须学习的Linux基础知识

作者| Roy瑞士责编| Carol封图| CSDN│下载于视觉中国这里主要介绍学习大数据过程中用到的Linux基础知识,现在主攻的方向是大数据开发,欢迎大家共同交流。环境推荐安装VMware虚拟机并安装CentOS操作系统,具体资源的下载和安装可以查到&#x…

数据可用不可见!揭秘蚂蚁区块链摩斯安全计算平台

“数据安全”与“隐私泄漏”制约数字经济长期发展 在新的商业智能时代,已形成广泛的共识:数据是最基础的生产资料,各个行业与企业对于数据的利用也步入成熟期。可见的未来,数据利用的深度和广度将进一步升级,进入跨机…

如何与亦敌亦友的 null 说拜拜?大神原来是这么做的!

作者| 沉默王二责编| Carol封图| CSDN│下载于视觉中国从 10 年前我开始写第一行 Java 代码至今,一直觉得 null 在 Java 中是一个最特殊的存在,它既是好朋友,可以把不需要的变量置为 null 从而释放内存,提高性能;它又是…

K8s中Pod健康检查源代码分析

了解k8s中的Liveness和Readiness Liveness: 表明是否容器正在运行。如果liveness探测为fail,则kubelet会kill掉容器,并且会触发restart设置的策略。默认不设置的情况下,该状态为success. Readiness: 表明容器是否可以接受服务请求。如果re…

CSE:阿里在线应用如何演进成Serverless架构

Cloud Service Engine,简称CSE,是中间件部门研发的面向通用Serverless计算的中间件产品,目标是具备AWS Lambda的各种优势,同时可以解决AWS Lambda的关键技术缺陷。 AWS Lambda如果用于核心业务,可能会有以下缺陷&…

郫都区计算机学校,成都郫县好升学的计算机学校有哪些

【郫县好一、成都郫县希望1.成都郫县希望职业学校/招生代码:512632.成都郫县希望职业学校/学校简介:成都郫县希望职业学校学校是由郫都区教育局批准成立的,由希望集团投资创办的一所全日制、专业化的民办中等职业学校, 由郫都区教育局主管。学…

技术大佬:今年还学Python,傻了吧? 网友:就你敢说!

随着AI的兴起,Python彻底火了。据Stack Overflow调研报告:Python的月活用户已超越了Java、成为第一,全民Python已为“大势所趋”。那么,程序员有必要追捧Python吗?Python的真香是真香吗?技术大佬&#xff1…

基于Tablestore的Wifi设备监管系统架构实现

Wifi设备监管 某知名跨国公司,在全球范围内拥有大量园区,园区内会有不同部门的同事在一起办公。每个园区内都要配备大量的Wifi设备从而为园区同事提供方便的上网服务。因此,集团需要一套完善的监管系统维护所有的Wifi设备。 公司通过监管系…

聊聊安卓折叠屏给交互设计和开发带来的变化

很多年前,前端同学都觉得PC端的适配(兼容处理)难,都认为移动端的时代适配会容易得多,也无需考虑那么多的事情。事实并非如此,移动端的时代同样面临着各种适配的处理。特别是刘海机的出现,前端需…

你以为这样写代码很6,但我看不懂

来源 | 沉默王二责编| Carol封图| CSDN│下载于视觉中国为了提高 Java 编程的技艺,作者最近在 GitHub 上学习一些高手编写的代码。下面这一行代码(出自大牛之手)据说可以征服你的朋友,让他们觉得你写的代码很 6,来欣赏…

在闲鱼,我们如何用Dart做高效后端开发?

背景 像阿里其他技术团队以及业界的做法一样,闲鱼的大多数后端应用都是全部使用java来实现的。java易用、丰富的库、结构容易设计的特性决定了它是进行业务开发的最好语言之一。后端应用中数据的存储、访问、转换、输出虽然都属于后端的范畴,但是其中变…

解决 mysql>com.mysql.jdbc.PacketTooBigException: Packet for query is too large (12073681 > 4194304)

com.mysql.jdbc.PacketTooBigException: Packet for query is too large 异常解决办法: 原因: 查询出的数据包过大,默认情况下mysql 的字段容量不够装,所以抛出此异常 解决办法: 第一步:首先通过SQLyog客…