初入数据科学领域,你需要有七个这样的思维

a2b552801af56f0749296996eb1b9ec21ae941a2

假设你刚刚被一家小型软件公司聘为数据科学家。你感到欣喜若狂!你的辛勤工作和坚持不懈终于得到了回报。是时候将你的统计数据和机器学习知识付诸实践了。那么恭喜你终于加入了数据革命。

第1天到来,每个人都很高兴见到这位“数据科学家”。该公司以前从未聘请过数据科学家,因此有些期望值并不切实际。更可怕的是你的主管可能不是数据科学家,你可能向她在第一天为你提供帮助。“请给我一些数据!”你可能认为数据很容易获得检索,或者至少它会以干净整洁的格式存储。很明显,雇用你的公司有一个宏伟的计划,在实现这个计划之前不可能什么都准备完毕,这也是你的价值所在!

对于大多数初级数据科学家加入小型公司(甚至是世界科技巨头之外的组织)。作为曾经又过这样经历的人,我想概述一些实用的想法,以帮助初级数据科学家在一家小型软件公司开始。这些步骤来自我个人的旅程和我之前的其他旅程。

 

1.获取公司领域专业知识

当我第一次在Nulogy担任数据科学家时,我急于绕过繁琐的入职流程,因为我只想玩数据。我花了几个月的时间才意识到,如果没有正确理解我所运营的域名,就很难提出并证明新项目的合理性,以便为业务带来哪些好处。

作为数据科学家,你需要了解你目前所属行业的细节。你还可以就如何进行探索性数据分析,自我批判你的发现并调查异常情况。拥有强大的专业知识使你能够执行更好的特征选择和工程设计。实际上,构建模型来优化系统而不了解当前系统如何工作的潜在细微差别是失败的一个因素。

 

2.能力提升

16f8c5972fc9d4c2371e9c079a80a92601cfb803

仅仅理解你的公司为数据科学家提供职位描述并不意味着他们对该职位的内容有深刻的理解。我的意思是让我们面对现实:有时我们也不会。我曾经读过一位数据科学主管的文章,他在开始担任新角色后,花了30%或更多的时间在整个组织内建立对数据科学和机器学习的共同理解(这是原始故事)。对于数据科学家在机器学习领域开展工作而言,这是一个很好的开始。你可以选择使用R或Python教授课程,或者提供课程让你及周围的人围绕统计分析和机器学习建立直觉。这对于帮助同事识别机器学习和数据科学有很大等帮助同时这也帮助你周围的人了解你的具体操作,这样在工作协同等时候更得心应手。

 

3.数据理解

这可能是最重要的,也是最容易解释的。一位新的数据科学家应该是这样理解的:

  • 如何产生数据;
  • 如何收集,存储和处理它;
  • 数据库的基础架构;

了解数据的产生和收集方式至关重要,因为它使你能够确定你是否可以按原样信任数据,或者是否需要进一步预处理才能使用或呈现数据。了解数据库的基础架构将加快查询过程,并帮助你最大限度地减少在提取数据时所犯的错误。确定需要收集哪些数据以实现公司的数据科学战略(你应该在整个中发挥重要作用)也很重要。

 

4.构建知识库(民主化数据)

数据科学家的角色不应局限于A / B测试、建立模型和发现相关性。相反,数据科学家应该在组织中创建数据驱动的文化中发挥关键作用。一个很好的起点是使你对所有员工所做工作的访问民主化。Airbnb有一篇很棒的文章,关于建立它所谓的“知识回购”。知识回购的目的是促进整个组织的知识共享,最简单的方法是使用Jupyter笔记本和R降价文件记录所有数据科学工作,并使组织中的任何人都可以轻松访问它们。你可以通过共享使用Shiny创建的简单应用程序将其提升到新的水平,使你的同事能够操纵输入并观察输出(数字或绘图)如何变化。

 

5.专注于小胜

d98167f8bf0ebe28fbad9c2e6b79a90b4a033828

当作为小公司的第一位数据科学家时,很可能不会立马有机器学习策略。通过识别机器学习机会并立即建立复杂模型来尝试开始工作可能会令人沮丧。这是因为你仍然不熟悉业务领域,你还没有沉浸在公司的数据基础架构中,甚至可能没有数据管道设置!

该怎么办?专注于小胜利。

组织中的每个级别都存在数据疏忽问题。你可以解决重要领域的实体,通过数据驱动的决策支持销售和营销,帮助产品团队设置,跟踪和评估KPI,同时在公司的数据科学路线图中并行工作。

这里的关键是让立即证明自己的价值。

 

6.重复After MeROI

我们中的许多数据科学家都陷入了解决数学复杂问题和构建机器学习算法的诱惑力。也就是说,现实情况是,我们认为“有趣”问题的很大一部分不会带来任何回报给我们的雇主。这些问题充其量只能充当冷静的对话启动者。

对于数据科学家而言,关注能够为其组织带来投资回报(ROI)的问题极为重要。问问自己,在这个项目上话费了多少美元?一个好的建议是让利益相关者参与构思过程,例如产品经理,客户经理或更好的实际客户。

同样,知道何时停止也很重要。例如,投资回报率是否会将模型的准确度提高5%,证明所需的努力和资源是合理的,还是模型在当前状态下足够好?让ROI和道德规范成为数据科学决策的两个指导原则。

 

7.数据科学路线图

在数据科学中,重要的是要提前考虑。你下一季度的数据科学游戏是什么?到年底怎么样?明年呢?从我卑微的经历来看,这项任务很难单独完成;你需要产品管理和高级管理人员的帮助,以了解数据科学最适合的位置以及最大化ROI的位置。然而,构建和传播数据科学路线图对于传达数据科学在组织中的作用和重要性至关重要。

 

总结:将所有合在一起

我没有数据可以证明这一点,但数据科学家在工作中不能长时间存在的理论已有详细记载。潜在的主题往往是数据科学家没有受到足够的挑战,因此他们总是在寻找“更性感”的事情。尽管如此,大多数中小型软件公司的原始现实是,数据科学不是一个具有深思熟虑战略和预定目标的预定义角色。这是一个具有巨大未开发潜力的新发现领域,其中大部分需要在利润、数据分析、统计和机器学习以及有针对性的数据通信之间确定和建立正确的桥梁。总而言之,数据科学是一个过程,有一个开始,有时不那么明确的结束。


原文链接
本文为云栖社区原创内容,未经允许不得转载。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/520999.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

输入文字自动生成图片_原来Word还可以自动生成图片和图表目录!

小李接到了一个任务,将技术文档中的示意图目录做出来,让客户能根据需求快速找到操作示意图,可是这份文档有三百多张图片,不过,这可难不倒小李。说到Word目录,大多数人都知道,可以为文档的标题设…

反转!物联网火爆,开发者却很难入门?

在 2019 北京网络安全大会上,工信部负责人表示,我国面向 5G 和车联网将建设网安防护体系,提升监测预警和应急响应能力。其中物联网设备已成为网安防护新重点。为什么工信部会这么重视物联网?物联网开发者的现状又是如何呢&#xf…

如何深度理解RNN?——看图就好!

欢迎来到循环神经网络的插图指南。我是迈克尔,也被称为LearnedVector,我是AI语音领域的机器学习工程师。如果你刚刚开始使用ML并希望在Recurrent神经网络背后获得一些直觉,那么这篇文章就适合你。 循环神经网络是一种强大的技术,…

java有string这个类型吗_关于java的String类型

String类型的不可变众所周知,String类型是不可变的,一旦String对象被创建好了则这个字符串中的序列就不可改变。为什么String类型是不可变?根据阅读源码可知,String类是一个final类,但是String不可变并不是因为它是一个…

理论与实践:如何从Hadoop迁移到MaxCompute

直播视频回看,传送门!分享资料下载,传送门!更多精彩内容传送门:大数据计算技术共享计划 — MaxCompute技术公开课第二季 以下内容根据演讲视频以及PPT整理而成。 通常而言,将Hadoop迁移到MaxCompute会分为…

rocketmq原理_彻底看懂RocketMQ事务实现原理

面试中经常会问到比如RocketMQ的事务是如何实现的呢?学习框架,我们不仅要熟练使用,更要掌握设计及原理,才算熟悉一个框架。1 RocketMQ 事务使用案例public class CreateOrderService { Autowired private OrderDao orderDao; A…

要活 102 年,阿里凭借的是什么?

戳蓝字“CSDN云计算”关注我们哦!作者 | 屠敏责编 | 阿秃由浅到深、由轻到重、由拥抱到创新,看似“风平浪静”的历史背后,中国互联网江湖的发展实则“波涛汹涌”。对于身处核心位置的科技巨头阿里巴巴而言,将如何更好地去实现“希…

阿里云 x 蒙牛 | 打通数据孤岛,基于MaxCompute实现产销协同的智慧运营

每一个公司转型的背后 都有着不为人知的秘密 今天,让我们一起探秘 内蒙古蒙牛乳业(集团)股份有限公司是中国发展速度最快的乳品企业之一,2017年实现收入601.56亿元,位列全球乳业第10位,与2016年同比收入增…

(Docker实战) 第3篇:Centos7 拉取和部署Mysql

文章目录搭建mysql1. 创建mysql的配置文件2. 创建mysql配置/srv/mysql/conf/custom.cnf3. 下载并安装mysql 5.7(注意修改密码)搭建mysql 1. 创建mysql的配置文件 mkdir -p /srv/mysql/conf /srv/mysql/logs /srv/mysql/data2. 创建mysql配置/srv/mysql…

Hadoop迁移MaxCompute神器之DataX-On-Hadoop使用指南

DataX-On-Hadoop即使用hadoop的任务调度器,将DataX task(Reader->Channel->Writer)调度到hadoop执行集群上执行。这样用户的hadoop数据可以通过MR任务批量上传到MaxCompute、RDS等,不需要用户提前安装和部署DataX软件包,也不需要另外为…

(Docker实战) 第三篇:配置_开发环境

文章目录一、开发环境-建立开发环境1.1. 常用环境下载地址1.2. IDEA的maven配置1.3. 导入项目示例1.4. IDEA教程,如何从eclipse过渡1.5. gblfy的快捷键风格一、开发环境-建立开发环境 1.1. 常用环境下载地址 jdk8下载地址: https://www.oracle.com/te…

阿里云史上最大技术升级:面向万物智能的飞天2.0

1991年,《科学美国人》杂志描绘了一种“无处不在的计算设备,没人会感觉到它的存在”,拉开了万物智能的序幕。 27年后的2018杭州•云栖大会上,阿里云公布了面向万物智能的新一代云计算操作系统——飞天2.0,可满足百亿级…

杭州·云栖大会宣布多款核心云产品降价,最高降幅达90%

2018杭州云栖大会,阿里云宣布开启新一轮核心产品降价,再次用科技普惠广大开发者和用户,加速产业升级。本次降价涉及近20款产品,产品包括智能语音交互、图像识别、性能测试PTS、云数据库RDS等,其中事务消息降价90%&…

(Docker实战) 第四篇:建立持续集成环境01

标签: gblfy技术文档 文章目录一、 jenkins环境建立1.1. jenkins安装1.2. 安装jenkins前提:下载jdk1.3. 配置jenkins1.3.1. 配置远程发布插件Publish over SSH 选择系统设置1.3.2. 配置jdk,git,maven 选择系统管理->全局工具配…

系统无法分配所需内存_Innodb内存管理解析

本文主要介绍innodb的内存管理,涉及基础的内存分配结构、算法以及buffer pool的实现细节,提及change buffer、自适应hash index和log buffer的基本概念和内存基本配比,侧重点在内存的分配和管理方式。本文所述内容基于mysql8.0版本。基础内存…

飞天2.0面向万物智能的操作系统正式启幕

原文链接 本文为云栖社区原创内容,未经允许不得转载。

阿里数据总监分享《阿里数据中台建设实践案例》,PPT+语音讲解!

戳蓝字“CSDN云计算”关注我们哦!作者 | 技术领导力责编 | 阿秃本文整理自,阿里巴巴集团数据部商业应用总监列文,在“2019年阿里云(上海)峰会”上的分享,以PPT图片文字语音的方式呈现给各位社区读者。如果…

(Docker实战) 第五篇:建立持续集成环境02

标签: gblfy技术文档 文章目录一、 jenkins实战,持续集成实际项目1.1. 安装maven插件1.1.1. 找到Maven Integration这个插件1.1.2. 确保jenkins的maven本地仓库有一定的权限1.1.3. 创建job1.1.4. 配置参数1.1.5. 配置git仓库信息1.1.7. 配置构建信息1.1.…

阿里云OCR证件识别商业化发布,减少人工审核误差节省成本

随着互联网的发展,利用现代信息技术开展高效快捷便民服务工作,已经势在必行。证件识别算法,极大地提高了办公效率,现已在互联网金融、银行保险、电信通讯运营商、智能交通、政府、航空、社保局等行业领域被广泛运用。 近日&#…

(Docker实战) 第六篇:建立持续集成环境03

标签: gblfy技术文档 文章目录六、 git核心概念6.1. git学习地址6.2. github和码云的介绍6.3. git常用命令和操作6.3.1. 命令行常用命令6.3. IDEA操作方法(具体看视频)6.3.1. 合并分支6.3.2. compare with6.3.3. rename6.3.4. 看历史记录(所有的和单个文…