数据科学家数据分析师_使您的分析师和数据科学家在数据处理方面保持一致

数据科学家数据分析师

According to a recent survey conducted by Dimensional Research, only 50 percent of data analysts’ time is actually spent analyzing data. What’s the other half spent on? Data cleanup — that tedious and repetitive work that must be done before you can dig into the fancy data science stuff. I’m talking about deduplication, fuzzy matching, replacing invalid characters — basically, all the data wrangling and munging you need to do to make the data easier to understand and work with.

根据Dimensional Research最近进行的一项调查,实际上只有50%的数据分析师时间用于分析数据。 另一半花在什么上面? 数据清理-必须先完成乏味且重复的工作,然后才能深入研究花哨的数据科学资料。 我说的是重复数据删除,模糊匹配,替换无效字符-基本上,您需要对所有数据进行整理和整理以使数据更易于理解和使用。

Typically, data manipulation is accomplished one of two ways, each of which has pros and cons. The first method relies primarily on SQL, which is great for doing the joins, unions, and deduplications that are the bread and butter of data cleanup. For those specific actions that SQL is unable to perform, for example extracting word counts from unstructured text, you simply embed user-defined functions (UDFs) written in a general-purpose programming language, usually Python.

通常,数据操作是通过以下两种方式之一完成的,每种方式都有其优缺点。 第一种方法主要依赖于SQL,这非常适合执行联接,联合和重复数据删除,而重复数据删除是数据清理的基础。 对于SQL无法执行的那些特定操作,例如从非结构化文本中提取单词计数,您只需嵌入用通用编程语言(通常是Python)编写的用户定义函数(UDF)。

The second approach uses a general-purpose programming language, such as Python or Scala, as the “point of entry” for working with data. Operations that you would do in SQL, like joins, are provided by a data frame library like Pandas. Many data scientists naturally gravitate to this approach because they have more experience with Python or Scala, and they view SQL as a lesser tool primarily for business analysts. However, they are missing out on some big benefits of the SQL-first approach:

第二种方法使用通用编程语言(例如Python或Scala)作为处理数据的“入口点”。 您将在SQL中执行的操作(例如联接)由数据框架库(例如Pandas)提供。 许多数据科学家自然倾向于使用这种方法,因为他们在Python或Scala方面拥有更多经验,并且他们将SQL视为主要用于业务分析人员的较少工具。 但是,它们没有充分利用SQL优先方法的一些优点:

  • The most common data-cleanup operations produce simpler code in SQL. Simpler code makes it easier for others to understand and harder for you to make mistakes;

    最常见的数据清理操作会在SQL中产生更简单的代码。 更简单的代码使其他人更容易理解,并且更容易出错。
  • SQL is ubiquitous among data analysts, so it’s easier to share code with analysts;

    SQL在数据分析人员中无处不在,因此与分析人员共享代码更加容易。
  • It’s easier to hire for SQL expertise than Python or Scala.

    雇用SQL专家比使用Python或Scala容易。

These benefits I just described are “human-focused,” but there is also a very important infrastructure benefit as well. Massively Parallel Processing (MPP) systems, like Snowflake and BigQuery, will automatically distribute your code across an arbitrarily large compute cluster if you write it in SQL.

我刚刚描述的这些好处是“以人为本”的,但是,还有一个非常重要的基础架构好处。 大规模并行处理(MPP)系统(例如Snowflake和BigQuery),如果您使用SQL编写代码,则会自动将代码分布在任意大型的计算集群中。

On the other hand, if you use Python or Scala dataframes as your primary programming model, you will often need to specify data distributions and other details of how the system spreads your computation across nodes. The resulting execution plan is usually less efficient than what a SQL-based system would have produced, thanks to write barriers as well as extra serialization and deserialization steps. This last point is increasingly important when you’re working with larger data sets. That’s not to say it’s impossible to distribute your workload effectively when using a dataframe-based system, but you’ll be doing infrastructure work that doesn’t add value instead of spending your time getting insights from data.

另一方面,如果您将Python或Scala数据框用作主要的编程模型,则通常需要指定数据分布以及系统如何在节点之间分布计算的其他详细信息。 由于写障碍以及额外的序列化和反序列化步骤,最终的执行计划通常效率不如基于SQL的系统。 当您使用较大的数据集时,这最后一点变得越来越重要。 这并不是说在使用基于数据帧的系统时不可能有效地分配工作负载,但是您将进行的基础架构工作不会增加价值,而不是花费时间从数据中获取洞察力。

Lastly and most importantly, by making SQL your foundation, you can avoid creating two competing camps within your organization, data scientists versus analysts. With everyone in alignment about how data manipulation is accomplished, your team can focus on the deep data analysis that’s increasingly important in business today.

最后也是最重要的一点是,通过使SQL成为基础,您可以避免在组织内创建两个竞争阵营,即数据科学家与分析师。 使每个人都对如何完成数据操作保持一致,您的团队可以专注于深度数据分析,该分析在当今业务中变得越来越重要。

翻译自: https://towardsdatascience.com/aligning-your-analysts-and-data-scientists-around-data-manipulation-fefe80d46c51

数据科学家数据分析师

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/387873.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

神经网络使用情景

神经网络使用情景 人脸/图像识别语音搜索文本到语音(转录)垃圾邮件筛选(异常情况探测)欺诈探测推荐系统(客户关系管理、广告技术、避免用户流失)回归分析 为何选择Deeplearning4j? …

BZOJ4890 Tjoi2017城市

显然删掉的边肯定是直径上的边。考虑枚举删哪一条。然后考虑怎么连。显然新边应该满足其两端点在各自树中作为根能使树深度最小。只要线性求出这个东西就可以了&#xff0c;这与求树的重心的过程类似。 #include<iostream> #include<cstdio> #include<cmath>…

【国际专场】laravel多用户平台(SaaS, 如淘宝多用户商城)的搭建策略

想不想用Laravel来搭建一个多用户、或多租户平台&#xff1f;比如像淘宝那样的多商户平台呢&#xff1f;听上去很复杂&#xff0c;不是吗&#xff1f;怎么能一个程序&#xff0c;给那么多的机构用户来用呢&#xff1f;如何协调管理它们呢&#xff1f;数据库怎么搭建呢&#xff…

GitHub常用命令及使用

GitHub使用介绍 摘要&#xff1a; 常用命令&#xff1a; git init 新建一个空的仓库git status 查看状态git add . 添加文件git commit -m 注释 提交添加的文件并备注说明git remote add origin gitgithub.com:jinzhaogit/git.git 连接远程仓库git push -u origin master 将本地…

神经网络的类型

KNN DNN SVM DL BP DBN RBF CNN RNN ANN 概述 本文主要介绍了当前常用的神经网络&#xff0c;这些神经网络主要有哪些用途&#xff0c;以及各种神经网络的优点和局限性。 1 BP神经网络 BP (Back Propagation)神经网络是一种神经网络学习算法。其由输入层、中间层、输出层组成的…

python db2查询_如何将DB2查询转换为python脚本

python db2查询Many companies are running common data analytics tasks using python scripts. They are asking employees to convert scripts that may currently exist in SAS or other toolsets to python. One step of this process is being able to pull in the same …

Dapper基础知识三

在下刚毕业工作&#xff0c;之前实习有用到Dapper&#xff1f;这几天新项目想用上Dapper&#xff0c;在下比较菜鸟&#xff0c;这块只是个人对Dapper的一种总结。 Dapper&#xff0c;当项目在开发的时候&#xff0c;在没有必要使用依赖注入的时候&#xff0c;如何做到对项目的快…

deeplearning4j

deeplearning4j 是基于java的深度学习库&#xff0c;当然&#xff0c;它有许多特点&#xff0c;但暂时还没学那么深入&#xff0c;所以就不做介绍了 需要学习dl4j&#xff0c;无从下手&#xff0c;就想着先看看官网的examples&#xff0c;于是&#xff0c;下载了examples程序&a…

PostgreSQL 11 1Kw TPCC , 1亿 TPCB 7*24 强压耐久测试

标签 PostgreSQL , tpcc , tpcb 背景 TPCC, TPCB是工业标准的OLTP类型业务的数据库测试&#xff0c;包含大量的读、写、更新、删除操作。 7*24小时强压耐久测试&#xff0c;主要看数据库在长时间最大压力下的 性能、稳定性、可靠性。 测试CASE &#xff1a; 1、1000万 tpcc 2、…

推理编程_答案集编程的知识表示和推理

推理编程Read about the difference between declarative and imperative programming and learn from code examples (Answer Set Programming, Python and C).了解声明式和命令式编程之间的区别&#xff0c;并从代码示例(答案集编程&#xff0c;Python和C)中学习。 介绍 (In…

给Hadoop初学者的一些建议

我们介绍了新手学习hadoop的入门注意事项。这篇来谈谈hadoop核心知识学习。 hadoop核心知识学习: hadoop分为hadoop1.X和hadoop2.X&#xff0c;并且还有hadoop生态系统。这里只能慢慢介绍了。一口也吃不成胖子。 那么下面我们以hadoop2.x为例进行详细介绍&#xff1a; Hadoop…

Guide AHOI2017 洛谷P3720

Description 农场主John最近在网上买了一辆新车&#xff0c;在购买汽车配件时&#xff0c;John不小心点了两次“提交”按钮。导致汽车上安装了两套GPS系统&#xff0c;更糟糕的是John在使用GPS导航时&#xff0c;两套系统常常给出不同的路线。从地图上看&#xff0c;John居住的…

稳坐视频云行业第一,阿里云将用边缘计算开辟新赛道

“CDN竞争的上半场已结束&#xff0c;中国视频云市场格局已定&#xff0c;边缘计算将成为下半场发展的新赛道。” 4月10日&#xff0c;阿里云视频云总经理、边缘计算负责人朱照远在第七届“亚太内容分发大会”暨CDN峰会表示。朱照远认为&#xff0c;阿里云依靠齐全的产品矩阵、…

爱因斯坦提出的逻辑性问题_提出正确问题的重要性

爱因斯坦提出的逻辑性问题We live in a world that values answers. We were taught in school to learn how to answer questions in exams, we were conditioned to go to work knowing that we need to have the answers and our society, by and large, focuses on finding…

python安装包

由于Google、YouTube等大型公司的推广&#xff0c;Python编程语言越来越受欢迎&#xff0c;很多编程爱好者&#xff0c;也将Python做为了首先的编程语言。 今天我们就来讲一下&#xff0c;学习的第一步&#xff0c;安装Python IDLE编辑器&#xff0c;也它的调试和使用。 第一步…

104 权限 sudo 解压缩

主要内容:https://www.cnblogs.com/pyyu/articles/9355477.html 1 查看系统版本信息: #查看系统版本信息 cat /etc/redhat-release CentOS Linux release 7.4.1708 (Core) #查看内核版本号 uname -r 3.10.0-693.el7.x86_64 #查看系统多少位 uname -m x86_64 #查看内核所有信息…

Cloud Native 介绍

为什么80%的码农都做不了架构师&#xff1f;>>> 背景 Cloud Native表面看起来比较容易理解&#xff0c;但是细思好像又有些模糊不清&#xff1a;Cloud Native和Cloud关系是啥&#xff1f;它用来解决什么问题&#xff1f;它是一个新技术还是一个新的方法&#xff1f…

餐厅数据分析报告_如何使用数据科学选择理想的餐厅设计场所

餐厅数据分析报告空间数据科学 (Spatial Data Science) Designing any product requires a lot of analysis and research. It is also true for designing any building. Before we begin to design any building, we collect information about the location where we are de…

P2P原理及UDP穿透简单说明

本文章出自cnntec.com的AZ猫著&#xff0c;如需要转发&#xff0c;请注明来自cnntec.com Peer-To-Peer缩写P2P 中文称之为对等联网。 用途于交流&#xff0c;比如QQ&#xff0c;MSN等等。 文件传输、分布式数据计算等等。 这里我们主要是是简单讲解一下UDP实现NAT的穿透&…

PCB genesis 大孔扩孔(不用G84命令)实现方法

PCB钻孔时,当钻刀>6.3mm时,超出钻孔范围,钻孔工序是没有这么大的钻刀,当这种情况,工程CAM会都采用G84命令用小孔扩孔的方式制作, 在这里介绍一种如果不用G84命令,用程序实现将大孔生成小孔钻孔达到扩孔的目的。 一.我们先了解一下G84命令扩孔 孔尺寸大小 孔密度 连一篇文章有…