你该选择哪个职业呢?数据科学家、数据分析师和数据工程师

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

许多人,在技术行业内外,对不同的数据角色及其职责感到困惑。这可能会使得想要进入该领域的人难以知道哪份工作适合他们的技能,以及与他们想要做的事情是否一致。因此,在这篇文章中,我想详细解释数据科学家、分析师和工程师之间的区别。


下面的图表展示了公司内部的基本数据流。

这并不是普遍适用的,不同的组织之间可能会有所变化。

公司内部的数据流。作者绘制的图表。
让我们来详细分析这些步骤:

  • 收集 — 这主要是关于从你可能需要的来源收集数据。要获取数据,你需要从组织拥有的网站或产品中进行日志记录和API调用。
  • 存储 — 现在我们有了数据,需要存储它以便我们可以访问。数据可以存储在许多地方和形式中,如关系数据库、云基础设施(如S3桶),甚至是某个服务器上的普通旧CSV。为此,你需要构建健壮的数据管道。
  • 转换 — 尽管我们有了数据,但它可能不是在一个很好的格式中。所以,我们需要转换它来清理并创建有用的表格。
  • 分析 — 数据清理干净后,我们可以开始从中收集洞察,以帮助推动业务决策。
  • 优化 — 数据生命周期的最后顶点是使用洞察来优化公司内部的流程,通过预测分析、建模和测试来实现。

角色要求概览


公司内不同的数据角色将控制数据流的不同部分。通常,数据工程师将使用管道来收集和存储数据。收集步骤也可以与软件工程师协作完成。

转换阶段是由这三个角色以某种方式完成的,至少根据我的经验是这样。数据科学家需要转换数据以进行模型训练,分析师转换数据以收集洞察,工程师通过数据建模转换数据以创建更好的表格。

然后,数据分析通常由数据分析师完成。最后,数据科学家负责流程中的优化步骤。尽管如此,数据科学家可能会发现自己有时也在进行一些分析,反之亦然。

我想强调的是,根据我的经验,角色之间的界限并不是固定的,而是经常相当流动的。如果你是一名数据工程师,你可能会发现自己有时也在进行一些分析和预测建模。这取决于你的组织结构和你的角色需求。

在大公司,你的技能将会更加专业化。数据科学家只会做建模部分,工程师只会做收集和存储方面的工作。而在小公司,比如初创公司,你更有可能是全能选手。在申请工作时请记住这一点!

还有另一件事需要注意,那就是每家公司对数据角色的定义往往不同。一家公司的数据科学家可能在另一家公司是数据分析师。因此,在申请前仔细阅读职位描述非常重要。

无论如何,让我们分解这三个数据角色以及他们执行工作所需的技能和工具。

数据工程师


如上所述,数据工程师基本上是数据生态系统的基础,因为他们是获取和存储数据的人。他们的总体目标是构建健壮且可持续的数据管道和基础设施,以服务分析师、科学家和任何想要在公司内部使用数据的人。

以下是成为数据工程师所需的技能和工具:

  • 编码 — 作为工程师,你需要能够编码。你需要知道的主要语言是Python和SQL,但像NoSQL、R和Java这样的语言也很有用。
  • 数据库和存储 — 现在,关系型和非关系型数据库是存储数据的主要方式,因此了解它们的工作方式和功能非常重要。常见的学习对象包括MySQL和PostgreSQL。你还需要了解数据仓库和数据湖等内容。
  • 命令行和终端 — 像任何技术职业一样,使用命令行执行命令、编辑文件和运行脚本是很重要的。
  • ETL(提取、转换、加载) — 这些工具有助于构建数据管道,比如Apache Airflow。
  • 云计算 — 许多数据工作流程,以及一般的技术工作,都是通过云计算完成的。现在几乎是基本要求,要理解AWS、Azure和Google Cloud等平台。


这并不是一个详尽的列表,因为每个公司的数据工程师角色都不相同。

数据分析师


数据分析师的主要工作是从数据中提取有意义的洞察,以帮助业务。作为分析师,你通常比数据工程师更接近业务端,因此领域知识很重要。

以下是成为数据分析师所需的技能和工具:

  • 编码 — 一般来说,分析师主要需要了解SQL。Python对许多角色来说很有用,但不是必需的。
  • Excel — 对于任何行业的任何分析任务,Microsoft Excel都是黄金标准。作为分析师,你必须非常熟练地使用它。
  • 仪表板 — 你需要能够以清晰的方式将你的发现呈现给利益相关者。使用Power BI和Tableau等工具通过仪表板进行呈现是最佳方式。
  • 分析技能 — 分析师经常运行实验,如AB测试,因此擅长数学和统计学是必需的。
  • 沟通 — 如上所述,你经常需要向非技术利益相关者展示你的发现,因此能够以易于消化的方式传达你的结果至关重要。

像数据工程师一样,这个列表绝不是详尽的,某些公司可能还需要分析师具备其他技能。

数据科学家


作为数据科学家,你的主要目标是创建预测性和机器学习算法,以帮助业务做出决策和自动化流程。你可能会进行预测、优化,甚至是深度学习,这取决于你工作的行业和领域。

以下是成为数据科学家所需的技能和工具:

  • 编码 — Python和SQL是必须的。Python因为大多数机器学习包都是用这种语言编写的,SQL用于收集你的训练数据。
  • 机器学习 — 你需要对机器学习算法及其工作原理有良好的
  • 理解,因为这是你大部分时间都在做的事情!
  • 数学和统计学 — 要理解机器学习,你需要在线性代数、微积分和贝叶斯统计等领域精通数学和统计学。
  • 云计算 — 许多算法和数据科学产品都部署在云上,因此熟悉云系统是很好的。
  • 命令行和终端 — 数据科学家相当多的时间在生产代码中工作,因此精通Bash和Z-Shell脚本非常有用。
  • 沟通 — 你经常需要向非技术利益相关者展示你的发现和模型,因此能够以易于消化的方式传达你的结果至关重要。

该选择哪一个?


最终的问题是,你应该选择哪个数据角色?在我看来,这取决于你的技能集在哪里以及你对什么感兴趣。我认为成为分析师是最容易的,因为它的要求较少,所以你可以更快地获得第一份工作。它也是对任何关注业务的人来说最好的角色。数据科学家的工作主要针对喜欢数学和统计学的人,而数据工程师非常适合喜欢技术方面的人。无论你选择哪一个,记住,无论标题如何,各公司的角色和职责都会有所不同。因此,确保你仔细阅读职位描述,以准确了解你每天将要做的事情!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/781276.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

CQ 社区版2.10.0 | 新增 SQL 审核、全新英文版上线…

三月中旬,我们预告了 CloudQuery 社区版即将上线的「SQL 审核」功能。现在,它来了! 本次社区版 v2.10.0,除了 SQL 审核功能,我们还在手动授权、连接分组等模块做了新功能和优化。 新增功能 新增 SQL 审核功能 支持…

路径规划——搜索算法详解(二):Floyd算法详解与MATLAB代码

上次总结了Dijkstra算法的案例原理与代码,本文分享第二种比较基础且易懂的方法为Floyd算法,该算法可以有效正确地处理有向图的最短路径问题,与Dijkstra算法不同,Floyd算法是一种动态规划算法,对于稠密图效果显著。原理…

安达发|APS计划排产系统帮助纺织业实现企业数字化管理

APS(高级计划排产系统)是一种基于供应链管理和约束理论的计划排产工具,它通过模拟和优化企业的生产、物流等运作过程,帮助企业实现精细化管理。在纺织业中,APS的应用可以极大地推动企业数字化管理的进程,具…

武汉星起航:各大企业力挺亚马逊,共筑跨境电商新生态

亚马逊电商平台作为全球领先的跨境电商巨头,一直以来都备受各大企业的青睐与支持。这些企业通过与亚马逊合作,共同拓展市场、提升品牌影响力,实现了互利共赢的局面。武汉星起航将浅析各大企业对亚马逊电商平台的支持,展现其共筑强…

Linux之时间子系统(四): tick 层模块(broadcast )

一、前言 在内核中,有cpuidle framework可以控制cpu的节电:当没有进程调度到该cpu上执行的时候,swapper进程粉墨登场,将该cpu会被推入到idle状态。当然CPU的idle状态有深有浅,当CPU睡的比较深入的时候,有可…

C++函数模板及类模板 ← 面向对象

【知识点】泛型编程,是 C 的一种重要编程思想,其利用的主要技术是模板。 C 提供两种模板机制:函数模板(function template)和类模板(class template)。【算法代码:函数模板】 ● 函数…

嵌入式C语言中头文件计设规则方法

我是阿梁,最近在负责的项目代码,也算是祖传代码了,里面有很多头文件嵌套的情况,即a.h包含b.h,b.h又包含c.h,c.h又包含d.h......遂找到一份华子的C语言编程规范学习一下,并结合自己的理解写成这篇文章,以规范自己的代码。 1. 头文件嵌套的缺点 依赖:若x.h包含了y.h,则…

005_index_in_Matlab中的数组索引

Matlab中的数组索引 1. 数组相关函数 前面我们已经介绍了关于向量、数组的一些基本约定,已经涉及了一些数组创建和操作的规则。 函数作用备注size返回数组的大小length返回数组的最大维度ndims返回数组的维度数numel返回数组的元素个数zeros创建全零数组ones创建…

vue3项目 引入unocss原子化

unocss是一个即时的原子CSS引擎,它可以让你用简短的类名来控制元素的样式,而不需要写复杂的CSS代码。 当然,原子样式也有很多选择,最著名的就是 Tailwind。但由于Tailwind 会生成大量样式定义,会导致全量的 CSS 文件往…

动态规划 Leetcode 674 最长连续递增序列

最长连续递增序列 Leetcode 300 学习记录自代码随想录 要点:1.dp[i]定义为nums[i]结尾的连续最长递增蓄力,则正向遍历,递推时,如果是连续序列,则只比较nums[i]和nums[i-1],若是可以不连续则可以&#xf…

组蛋白脱乙酰酶介导的胃癌肿瘤微环境特征及协同免疫治疗(多组学文献学习)

目录 ①HDAC转录组多数据NMF一次聚类 ②ACRG队列中HDAC单独NMF聚类 ③HDS评分在胃癌中的临床特征和基因组特征 ④高 HDS 可能提示胃癌的“热”肿瘤状态 ⑤HDS是胃癌免疫治疗效果的有力预测指标 ⑥单细胞转录组测序揭示了高HDS和低HDS患者的TME ⑦内皮细胞和成纤维细胞可…

Unity LineRenderer的基本了解

在Unity中,LineRenderer组件用于在场景中绘制简单的线条。它通常用于绘制轨迹、路径、激光等效果。 下面来了解下它的基本信息。 1、创建 法1:通过代码创建 using UnityEngine;public class CreateLineRenderer : MonoBehaviour {void Start(){// 创…

工作总结5

1.taro框架使用map标签出现的错误 这个问题困扰很长时间,在频繁切换页面渲染的时候出现左边不显示,我理解的是变量没有到达map标签的属性上,那我就想是不是setState太慢了,然后又用了变量,本地缓存等,都没有…

math模块篇(八)

文章目录 math.cosh(x)math.sinh(x)math.tanh(x) math.cosh(x) math.cosh(x) 是 Python 中 math 模块的一个函数,用于计算给定数值 x 的双曲余弦值。双曲余弦函数是双曲函数的一部分,它与普通的余弦函数有类似的性质,但定义在双曲空间中。 …

接口自动化框架搭建(四):pytest的使用

1,使用说明 网上资料比较多,我这边就简单写下 1,目录结构 2,test_1.py创建两条测试用例 def test_1():print(test1)def test_2():print(test2)3,在pycharm中执行 4,执行结果: 2&#xff0…

得物 AIGC 算法岗(日常实习生) 面经分享

节前,我们组织了一场算法岗技术&面试讨论会,邀请了一些互联网大厂朋友、参加社招和校招面试的同学,针对算法岗技术趋势、大模型落地项目经验分享、新手如何入门算法岗、该如何准备、面试常考点分享等热门话题进行了深入的讨论。 最大的感…

Taskflow:子流任务(Subflow Tasking)

创建Subflow DAG任务中,有一种常见的场景,一个任务可能在执行期间产生新的任务,然后紧接着执行新任务。 之前提到的静态图就没有办法实现这样一个功能了,所以Taskflow提供了另一种流的节点:Subflow,Subflo…

node.js学习(2)

版权声明 以下文章为尚硅谷PDF资料,B站视频链接:【尚硅谷Node.js零基础视频教程,nodejs新手到高手】仅供个人学习交流使用。如涉及侵权问题,请立即与本人联系,本人将积极配合删除相关内容。感谢理解和支持,…

AQS的基本原理

AQS(AbstractQueuedSynchronizer)是一个用于构建锁和同步器的框架,许多同步器都可以通过AQS很容易并且高效的构造出来。不仅Reentrant和Semaphore是基于AQS构建的,还包括CountDownLatch、ReentrantReadWriteLock、SynchronousQueu…

ttkbootstrap界面美化系列之Notebook(四)

在简单的界面设计中,Notebook也是常用的组件之一,Notebook组件的引入可以根据标签来切换不同的界面。使得界面更有层次感,不必都挤在一个界面上。在tkinter中就有Notebook组件,在ttkbootstrap中,同样也对Notebook进行了…