干货 | 数据分析的 7 个关键步骤是什么?

“数据科学家” 这个名号总让人联想到一个孤独的天才独自工作,将深奥的公式应用于大量的数据,从而探索出有用的见解。但这仅仅是数据分析过程中的一步。数据分析本身不是目标,目标是使企业能够做出更好的决策。


数据科学家构建出的产品,必须使得组织中的每个人更好地使用数据,使得每个部门、每个层级可以做出受数据驱动的决策。


在自动收集、清洗和分析数据的产品中,可以捕获数据价值链,为执行仪表盘或报告提供信息和预测。随着新数据的产生,分析工作可以自动地、连续地运行。数据科学家可以根据业务不断改进模型,提高预测精度。虽然每个公司都是针对自己的需求和目标创建数据产品,但价值链中的一些步骤是一致的:


01 决定目标

在获取数据之前,数据价值链的第一步要先决定目标:业务部门要决定数据科学团队的目标。这些目标通常需要进行大量的数据收集和分析。因为我们正在研究那些驱动决策的数据,所以需要一个可衡量的方式,判断业务是否正向着目标前进。数据分析过程中,关键权值或性能指标必须及早发现。


02 确定业务手段

应该通过业务的改变,来提高关键指标和达到业务目标。如果没有什么可以改变的,无论收集和分析多少数据都不可能有进步。在项目中尽早确定目标、指标和业务手段能为项目指明方向,避免无意义的数据分析。例如,目标是提高客户滞留度,其中一个指标可以是客户更新他们订阅的百分比,业务手段可以是更新页面的设计,提醒邮件的时间和内容以及特别的促销活动。

640?wx_fmt=jpeg


03 数据收集

数据收集要尽量广撒网。更多的数据—-特别是更多的不同来源的数据—-使得数据科学家能找到数据之间更好的相关性,建立更好的模型,找到更多的可行性见解。大数据经济意味着个人记录往往是无用的,拥有可供分析的每一条记录才能提供真正的价值。公司通过检测它们的网站来密切跟踪用户的点击及鼠标移动,商店通过在产品上附加RFID来跟踪用户的移动,教练通过在运动员身上附加传感器来跟踪他们的行动方式。


04 数据清洗

数据分析的第一步是提高数据质量。数据科学家要纠正拼写错误,处理缺失数据以及清除无意义的信息。这是数据价值链中最关键的步骤。垃圾数据,即使是通过最好的分析,也将产生错误的结果,并误导业务本身。不止一个公司很惊讶地发现,他们很大一部分客户住在纽约的斯克内克塔迪,而该小镇的人口不到70000人。然而,斯克内克塔迪的邮政编码是12345,由于客户往往不愿将他们的真实信息填入在线表单,所以这个邮政编码会不成比例地出现在几乎每一个客户的档案数据库中。直接分析这些数据将导致错误的结论,除非数据分析师采取措施来验证和清洗数据。


尤为重要的是,这一步将规模化执行,因为连续数据价值链要求传入的数据会立即被清洗,且清洗频率非常高。这通常意味着此过程将自动执行,但这并不意味着人无法参与其中。


05  数据建模

数据科学家构建模型,关联数据与业务成果,提出关于在第一步中确定的业务手段变化的建议。数据科学家独一无二的专业知识是业务成功的关键所在,就体现在这一步—-关联数据,建立模型,预测业务成果。数据科学家必须有良好的统计学和机器学习背景,才能构建出科学、精确的模型,避免毫无意义的相关性及一些模型的陷阱。这些模型依赖于现有的数据,但对于未来的预测是无用的。但只有统计学背景是不够的,数据科学家还需要很好地了解业务,这样他们才能判断数学模型的结果是否有意义,以及是否具有相关性。


06 培养一个数据科学团队

数据科学家是出了名的难雇用,所以最好自己构建一个数据科学团队,让团队中那些在统计学方面有高级学位的人专注于数据建模和预测,而其他人—-合格的基础架构工程师,软件开发人员和ETL专家—-构建必要的数据收集基础设施,数据管道和数据产品,使得结果数据能够从模型中输出,并以报告和表格的形式在业务中进行展示。这些团队通常使用类似Hadoop的大规模数据分析平台自动化数据收集和分析工作,并作为一个产品运行整个过程。


07 优化和重复

数据价值链是一个可重复的过程,能够对业务和数据价值链本身产生连续的改进。基于模型的结果,业务将根据驱动手段做出改变,数据科学团队将评估结果。在结果的基础上,企业可以决定下一步计划,而数据科学团队继续进行数据收集、数据清理和数据建模。企业重复这个过程越快,就会越早修正发展方向,越快得到数据价值。理想情况下,多次迭代后,模型将产生准确的预测,业务将达到预定的目标,结果数据价值链将用于监测和报告,同时团队中的每个人将开始解决下一个业务挑战。


08 附 

以下是大致是所有从底层数据工作者往上发展的基本路径。往数据发展的基本学习路径可以概括为以下内容:


1)EXCEL、PPT(必须精通)

数据工作者的基本姿态,话说本人技术并不是很好,但是起码会操作;要会大胆秀自己,和业务部门交流需求,展示分析结果。技术上回VBA和数据透视就到顶了。


2)数据库类(必须学)

初级只要会RDBMS就行了,看公司用哪个,用哪个学哪个。没进公司就学MySQL吧。

NoSQL可以在之后和统计学啥的一起学。基本的NoSQL血MongoDB和Redis(缓存,严格意义上不算数据库),然后(选学)可以了解各类NoSQL,基于图的数据库Neo4j,基于Column的数据库BigTable,基于key-value的数据库redis/cassendra,基于collection的数据库MongoDB。


3)统计学(必须学)

如果要学统计学,重要概念是会描述性统计、假设检验、贝叶斯、极大似然法、回归(特别是广义线性回归)、主成分分析。这些个用的比较多。也有学时间序列、bootstrap、非参之类的,这个看自己的意愿。其他数学知识:线性代数常用(是很多后面的基础),微积分不常用,动力系统、傅里叶分析看自己想进的行业了。


4)机器学习(数据分析师要求会选、用、调)

常用的是几个线性分类器、聚类、回归、随机森林、贝叶斯;不常用的也稍微了解一下;深度学习视情况学习。


5)大数据(选学,有公司要求的话会用即可,不要求会搭环境)

hadoop基础,包括hdfs、map-reduce、hive之类;后面接触spark和storm再说了。


6)文本类(选学,有公司要求的话会用即可)

这部分不熟,基本要知道次感化、分词、情感分析啥的。


7)工具类

语言:非大数据类R、Python最多(比较geek的也有用julia的,不差钱和某些公司要求的用SAS、Matlab);大数据可能还会用到scala和java。可视化(选学):tableau、http://plot.ly、d3.js、echarts.js,R里面的ggplot、ggvis,Python里的bokeh、matplotlib、seaborn都不错
数据库语言:看你自己用啥学啥
其他框架、类库(选学):爬虫(requests、beautifulsoup、scrapy),日志分析(常见elk)


End.

转自:人工智能和大数据生活

来源:伯乐在线/知乎


本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/525600.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Python 爬取了马蜂窝的出行数据,告诉你这个夏天哪里最值得去!

文章由数据森麟出品作者徐麟正值火辣的暑假,朋友圈已经被大家的旅行足迹刷屏了,真的十分惊叹于那些把全国所有省基本走遍的朋友们。与此同时,也就萌生了写篇旅行相关的内容,本次数据来源于一个对于爬虫十分友好的旅行攻略类网站&a…

如何让笨重的系统架构变灵巧?

图片来源:Unsplash作者丨徐贤军来源丨徐贤军 架构师技术联盟如需转载,请联系原作者授权随着业务的复杂性增大、系统吞吐量增长,所有功能统一部署难度加大,各个功能模块相互影响使系统变的笨重且脆弱,因此需要对业务进行…

透过日播放量超过6亿的《延禧攻略》,看2018视频网站格局

作者介绍徐麟目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据文章来源数据森麟如需转载,请联系原作者授权前言随着《延禧攻略》的播出,魏璎珞、富察…

oracle怎么以时间排序,oracle指定数据排序在前面怎么处理

最近工作碰到客户的特殊要求,需要将特定的数据排序在前面,然后才按时间顺序排序,这个之前还真没有碰到过,好在有万能的度娘,搜索了一下,发现可以实现,使用order by decode语句即可。对于order b…

如何优雅使用Docker?请收下这15个小技巧

图片来源:Unsplash作者介绍ElNinoT文章来源Java架构沉思录原文链接www.cnblogs.com/elnino/p/3899136.html如需转载,请联系原作者授权1获取最近运行容器的id 这是我们经常会用到的一个操作,按照官方示例,你可以这样做(…

supervisor监控php进程程序,详解Supervisor进程守护监控(转)

Supervisor的配置2.0 创建目录,初始化配置文件mkdir /usr/supervisorecho_supervisord_conf > /usr/supervisor/supervisord.conf12mkdir/usr/supervisorecho_supervisord_conf>/usr/supervisor/supervisord.confecho_supervisord_conf详解:echo_s…

H264/ACC数据使用librtmp推流到服务器

这是本人第一次发表这个,首先声明本人也是个菜鸟!都说使用librtmp很简单,但是在网上找了很久,还是被各种大神坑了。 其实我也还是有很多东西不懂,如果下面有什么问题的地方,还请各位大神指点纠正。 1.视频数…

从容器到微服务,技术架构、网络和生态详解

图片来源:Unsplash作者晗狄文章来源架构师技术联盟如需转载,请联系原作者授权谈起容器技术,不得不提Docker技术。Docker 是 PaaS 提供商 DotCloud 开源的一个高级容器引擎,源代码托管在 Github 上,基于Go语言并遵从Apa…

彻底搞懂 python 中文乱码问题

前言 曾几何时 Python 中文乱码的问题困扰了我很多很多年,每次出现中文乱码都要去网上搜索答案,虽然解决了当时遇到的问题但下次出现乱码的时候又会懵逼,究其原因还是知其然不知其所以然。现在有的小伙伴为了躲避中文乱码的问题甚至代码中不使…

如何让Kubernetes集群生产可用?

图片来源:veer本文作者Steven Wong (VMware)Michael Gasch (VMware)文章翻译Karen Lee文章来源K8S技术社区原文链接https://kubernetes.io/blog/2018/08/03/out-of-the-clouds-onto-the-ground-how-to-make-kubernetes-production-grade-anywhere如需转载&#xff0…

北京房租到底有多高? | 爬取北京海淀区一居室租房信息

图片来源:花瓣网文章来源人工智能与大数据生活如需转载,请联系原作者授权最近北京房租成了热门话题,到底北京的房租有多高?本次实战是爬取北京海淀区一居室的租房信息,共爬取了300套房源信息,看一下北京的房…

租房有深坑?手把手教你如何用R速读评论+科学选房

图片来源:网络编译Hope、臻臻、CoolBoy文章来源大数据文摘出品如有转载,请联系原作者。最近,租房这事儿成了北漂族的一大bug,要想租到称心如意的房子,不仅要眼明手快,还得看清各类“前辈”的评价避开大坑。…

快速搭建Python+Selenium+Sublime 自动化测试环境方法

随着业内越来越多的公司对自动化测试的大力推行,对测试人员能够使用自动化工具的要求也随之增多。为了能让更多的同事在学习selenium的初期,能够顺利的迈出第一步,即可以通过代码操作selenium driver 调用浏览器打开目标网址,笔者…

刚刚,百度总裁张亚勤说……

作者奋笔疾书的小编原创文章,如有转载,请联系本公众号。9月4日, ABC SUMMIT百度云智峰会在上海举行。百度总裁张亚勤首先发表《云计算的新浪潮》主题演讲,他表示,我们已经全面进入物理世界数字化、AI as a Service、新…

pycharm 提示:this license **** has been cancelled(2)

目录 一.找到hosts文件 二.修改hosts文件 三.检查hosts文件是否修改成功 pycharm安装激活过程中,提示 this license **** has been cancelled 。这个问题并不是你的激活码不对,而是需要修改系统的hosts文件,下面详细讲解下如何修改hosts文…

嘿,运维!你与VXLAN有场约会……

图片来源:网络作者Bert如有转载,请联系本公众号。VXLAN概述 ▍顾名思义,VXLAN(Virtual eXtensible Local Area Network)提供了类似VLAN的二层网络服务,并且比VLAN更具备扩展性和灵活性,该技术将…

如何判断一个点在任意四边形内

通过面积法,判断点P是否在四边形(A,B,C,D)内。如果在四边形内,则四边形的面积面积(P,A,B)面积(P,B,C)面积(P,C,D)面积(P,D,A),反之不在四边形内。 此处我将判断方法定义成了静态方法,方便其他类访问,代码如下: public class IsInQuadrangle {public IsInQuadrangle…

网格变形动画MeshTransform

原文:Mesh Transforms 作者:Bartosz Ciechanowski 译者:kmyhy 我是 transform 属性的超级粉丝。让 UIView 或者 CALayer 的形体发生改变的最简单方法就是联合使用旋转、平移和缩放。在易于适用的同时,常规变换所能实现的效果也同…

cloud一分钟 | 腾讯云联手斗鱼、虎牙两大头部游戏直播平台开启 定制道具的创新互动...

Hello,everyone:9月7日早,星期五,祝大家工作愉快!一分钟新闻时间:完01微 信 群 添加小编微信:tangguoyemeng,备注“进群”即可,加入【云计算学习交流群】,和…

Linux服务器硬盘更换,[ Linux ] 服务器更换硬盘

服务器型号:ThinkServer RD650操作系统:Red Hat 6.7业务用途:生产环境监控机接到机房邮件通知,告知某台服务器硬盘告警,并提供了设备SN号和机柜位置。根据提供想相关信息找到对应的设备IP并确定该设备的业务用途。登录…