干货 | 数据分析的 7 个关键步骤是什么?

“数据科学家” 这个名号总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。


数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。


在自动收集、清洗和分析数据的产品中,可以捕获数据价值链,为执行仪表盘或报告提供信息和预测。随着新数据的产生,分析工作可以自动地、连续地运行。数据科学家可以根据业务不断改进模型,提高预测精度。虽然每个公司都是针对自己的需求和目标创建数据产品,但价值链中的一些步骤是一致的:


01 决定目标

在获取数据之前,数据价值链的第一步要先决定目标:业务部门要决定数据科学团队的目标。这些目标通常需要进行大量的数据收集和分析。因为我们正在研究那些驱动决策的数据,所以需要一个可衡量的方式,判断业务是否正向着目标前进。数据分析过程中,关键权值或性能指标必须及早发现。


02 确定业务手段

应该通过业务的改变,来提高关键指标和达到业务目标。如果没有什么可以改变的,无论收集和分析多少数据都不可能有进步。在项目中尽早确定目标、指标和业务手段能为项目指明方向,避免无意义的数据分析。例如,目标是提高客户滞留度,其中一个指标可以是客户更新他们订阅的百分比,业务手段可以是更新页面的设计,提醒邮件的时间和内容以及特别的促销活动。

640?wx_fmt=jpeg


03 数据收集

数据收集要尽量广撒网。更多的数据—-特别是更多的不同来源的数据—-使得数据科学家能找到数据之间更好的相关性,建立更好的模型,找到更多的可行性见解。大数据经济意味着个人记录往往是无用的,拥有可供分析的每一条记录才能提供真正的价值。公司通过检测它们的网站来密切跟踪用户的点击及鼠标移动,商店通过在产品上附加RFID来跟踪用户的移动,教练通过在运动员身上附加传感器来跟踪他们的行动方式。


04 数据清洗

数据分析的第一步是提高数据质量。数据科学家要纠正拼写错误,处理缺失数据以及清除无意义的信息。这是数据价值链中最关键的步骤。垃圾数据,即使是通过最好的分析,也将产生错误的结果,并误导业务本身。不止一个公司很惊讶地发现,他们很大一部分客户住在纽约的斯克内克塔迪,而该小镇的人口不到70000人。然而,斯克内克塔迪的邮政编码是12345,由于客户往往不愿将他们的真实信息填入在线表单,所以这个邮政编码会不成比例地出现在几乎每一个客户的档案数据库中。直接分析这些数据将导致错误的结论,除非数据分析师采取措施来验证和清洗数据。


尤为重要的是,这一步将规模化执行,因为连续数据价值链要求传入的数据会立即被清洗,且清洗频率非常高。这通常意味着此过程将自动执行,但这并不意味着人无法参与其中。


05  数据建模

数据科学家构建模型,关联数据与业务成果,提出关于在第一步中确定的业务手段变化的建议。数据科学家独一无二的专业知识是业务成功的关键所在,就体现在这一步—-关联数据,建立模型,预测业务成果。数据科学家必须有良好的统计学和机器学习背景,才能构建出科学、精确的模型,避免毫无意义的相关性及一些模型的陷阱。这些模型依赖于现有的数据,但对于未来的预测是无用的。但只有统计学背景是不够的,数据科学家还需要很好地了解业务,这样他们才能判断数学模型的结果是否有意义,以及是否具有相关性。


06 培养一个数据科学团队

数据科学家是出了名的难雇用,所以最好自己构建一个数据科学团队,让团队中那些在统计学方面有高级学位的人专注于数据建模和预测,而其他人—-合格的基础架构工程师,软件开发人员和ETL专家—-构建必要的数据收集基础设施,数据管道和数据产品,使得结果数据能够从模型中输出,并以报告和表格的形式在业务中进行展示。这些团队通常使用类似Hadoop的大规模数据分析平台自动化数据收集和分析工作,并作为一个产品运行整个过程。


07 优化和重复

数据价值链是一个可重复的过程,能够对业务和数据价值链本身产生连续的改进。基于模型的结果,业务将根据驱动手段做出改变,数据科学团队将评估结果。在结果的基础上,企业可以决定下一步计划,而数据科学团队继续进行数据收集、数据清理和数据建模。企业重复这个过程越快,就会越早修正发展方向,越快得到数据价值。理想情况下,多次迭代后,模型将产生准确的预测,业务将达到预定的目标,结果数据价值链将用于监测和报告,同时团队中的每个人将开始解决下一个业务挑战。


08 附 

以下是大致是所有从底层数据工作者往上发展的基本路径。往数据发展的基本学习路径可以概括为以下内容:


1)EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。


2)数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。


3)统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。


4)机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。


5)大数据(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。


6)文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。


7)工具类

语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。可视化(选学):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错
数据库语言:看你自己用啥学啥
其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)


End.

转自:人工智能和大数据生活

来源:伯乐在线/知乎


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/525600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

java中挂起和恢复,应用程序“未能及时恢复”并挂起

事件标识符:6C33511B-7C9A-474C-B888-84A4FAFF6F91 CrashReporter密钥:93bbba4f690eb1b7638fa7a09a3ff3aa4e6872f4硬件型号:iPad2,1过程:Designer [5279]路径:/ var / mobile / Applications / 7AA5BF4A-007D-47F8-B1C…

Python 爬取了马蜂窝的出行数据,告诉你这个夏天哪里最值得去!

文章由数据森麟出品作者徐麟正值火辣的暑假,朋友圈已经被大家的旅行足迹刷屏了,真的十分惊叹于那些把全国所有省基本走遍的朋友们。与此同时,也就萌生了写篇旅行相关的内容,本次数据来源于一个对于爬虫十分友好的旅行攻略类网站&a…

谢华亮 php,谢华亮: PHP4和PHP5性能测试和对比

PHP 4到今年年底PHP Group将不再对其进行支持了,所以为了让大家更有信心的转移到PHP 5平台上,我特别做了这个测试,看看我们PHP 4.x 是否真的性能比我们的PHP 5.x要好,测试结果很明显,那就是PHP 5.x 比php 4.x不论是面向…

oracle rman 检查坏块,Oracle中使用RMAN来检验坏块

RMAN即recovery manager可以通过在执行的备份任务中,仅仅验证数据文件中的数据块而不生成实际的备份,这样做的目的是纯粹为了了解数据文件中是否有坏块。RMAN在这个环境中:验证数据文件是否存在数据文件位于正确的存放位置在RMAN尝试检验这些…

如何让笨重的系统架构变灵巧?

图片来源:Unsplash作者丨徐贤军来源丨徐贤军 架构师技术联盟如需转载,请联系原作者授权随着业务的复杂性增大、系统吞吐量增长,所有功能统一部署难度加大,各个功能模块相互影响使系统变的笨重且脆弱,因此需要对业务进行…

php ios 判断字符串长度,iOStextfield 限制输入字符长度和过滤表情符号

//增加修改框-(void)creatSaveView{UILabel * lab [[UILabel alloc]init];if (self.searchType 1) {lab.frame CGRectMake(14, 8 * KWIDTH 64, IPHONE_WIDTH - 100, 16 *KWIDTH);}else{lab.frame CGRectMake(14, 8 * KWIDTH, IPHONE_WIDTH - 100, 16 * KWIDTH);}lab.text …

约稿——码字能赢得百万人生?不开玩笑

2018是写作的风口。你不信?你不能写?我们来看看人们是如何写作的——其实人人都能写。绝望中靠写作赢回人生,并且财务自由2015年,夏知凉遭遇生意破产和朋友背叛,负债几十万的他,电脑都被拿去抵债&#xff0…

透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局

作者介绍徐麟目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据文章来源数据森麟如需转载,请联系原作者授权前言随着《延禧攻略》的播出,魏璎珞、富察…

oracle怎么以时间排序,oracle指定数据排序在前面怎么处理

最近工作碰到客户的特殊要求,需要将特定的数据排序在前面,然后才按时间顺序排序,这个之前还真没有碰到过,好在有万能的度娘,搜索了一下,发现可以实现,使用order by decode语句即可。对于order b…

无法解析的外部符号 protected: virtual struct wxEventTable const * __thiscal

刚开始学习VC,对它的东西都不懂,其中最使用DECLARE_EVENTSINK_MAP时出现了一个错误, Linking... LegendWin.obj : error LNK2001: unresolved external symbol "protected: virtual struct AFX_EVENTSINKMAP const * __thiscall CLegend…

如何优雅使用Docker?请收下这15个小技巧

图片来源:Unsplash作者介绍ElNinoT文章来源Java架构沉思录原文链接www.cnblogs.com/elnino/p/3899136.html如需转载,请联系原作者授权1获取最近运行容器的id 这是我们经常会用到的一个操作,按照官方示例,你可以这样做(…

supervisor监控php进程程序,详解Supervisor进程守护监控(转)

Supervisor的配置2.0 创建目录,初始化配置文件mkdir /usr/supervisorecho_supervisord_conf > /usr/supervisor/supervisord.conf12mkdir/usr/supervisorecho_supervisord_conf>/usr/supervisor/supervisord.confecho_supervisord_conf详解:echo_s…

H264/ACC数据使用librtmp推流到服务器

这是本人第一次发表这个,首先声明本人也是个菜鸟!都说使用librtmp很简单,但是在网上找了很久,还是被各种大神坑了。 其实我也还是有很多东西不懂,如果下面有什么问题的地方,还请各位大神指点纠正。 1.视频数…

从容器到微服务,技术架构、网络和生态详解

图片来源:Unsplash作者晗狄文章来源架构师技术联盟如需转载,请联系原作者授权谈起容器技术,不得不提Docker技术。Docker 是 PaaS 提供商 DotCloud 开源的一个高级容器引擎,源代码托管在 Github 上,基于Go语言并遵从Apa…

brew php imagemagick,关于node使用gm和imageMagic在mac的坑

之前在windows上使用gm和imageMagic还是很顺手的,换了mac开发程序,发现自己才是坑。。emmmm但是要使用gm对图片进行拼接操作,只能硬着头皮上了笔记如下:mac不能直接安装imageMagic,而gm执行是依赖imageMagic的&#xf…

彻底搞懂 python 中文乱码问题

前言 曾几何时 Python 中文乱码的问题困扰了我很多很多年,每次出现中文乱码都要去网上搜索答案,虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼,究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使…

如何让Kubernetes集群生产可用?

图片来源:veer本文作者Steven Wong (VMware)Michael Gasch (VMware)文章翻译Karen Lee文章来源K8S技术社区原文链接https://kubernetes.io/blog/2018/08/03/out-of-the-clouds-onto-the-ground-how-to-make-kubernetes-production-grade-anywhere如需转载&#xff0…

计算方法matlab编程徐萃薇,计算方法课程设计--用Newton插值多项式处理磁化曲线.docx...

计算方法课程设计题 目: 用Newton插值多项式 处理磁化曲线 学 院: 理学院 班 级: 数学 15-1 学 生 姓 名: 陈昌林 学 生 学 号: 2014028281 指 导 教 师: 石瑞银2017年 06 月 19 日课程设计任务书姓名陈昌林班级数学15…

北京房租到底有多高? | 爬取北京海淀区一居室租房信息

图片来源:花瓣网文章来源人工智能与大数据生活如需转载,请联系原作者授权最近北京房租成了热门话题,到底北京的房租有多高?本次实战是爬取北京海淀区一居室的租房信息,共爬取了300套房源信息,看一下北京的房…

oracle adg switch over,Oracle11gr2_ADG管理之switchover补充

之前演示的switchver总是提示下面的错误,并且需要人工干预:DGMGRL> switchover to snewtest;Warning: You are no longer connected to ORACLE.Please complete the following steps to finish switchover:start up instance "newtest" of database "newtest…