为什么网易云音乐总能知道你喜欢听什么歌？背后的原理竟然如此简单！

全世界只有3.14 % 的人关注了

数据与算法之美

640?wx_fmt=jpeg

无处不在的数据分析

谷歌的数据分析可以预测一个地区即将爆发的流感，从而进行针对性的预防；淘宝可以根据你浏览和消费的数据进行分析，为你精准推荐商品；口碑极好的网易云音乐，通过其相似性算法，为不同的人量身定制每日歌单……

数据正在变得越来越常见，小到我们每个人的社交网络、消费信息、浏览数据……，大到企业的销售、运营数据，用户数据，交通网络数据……

如何从海量数据中获得别人看不见的知识，如何利用数据来武装营销工作、优化产品、用户调研、支撑决策，数据分析可以将数据的价值最大化。

那么，小白如何快速获得数据分析的能力呢？知乎上有很多书单，你可能也听过很多学习方法，但尝试过就知道这些跟高效没什么关系。

数据分析师应该具备哪些技能

要明确学习的路径，最有效的方式就是看具体的职业、工作岗位对于技能的具体需求。

我们从拉勾上找了一些最具有代表性的数据分析师职位信息，来看看薪资不菲的数据分析师，到底需要哪些技能。

640?wx_fmt=png

其实企业对数据分析师的基础技能需求差别不大，可总结如下：

SQL数据库的基本操作，会基本的数据管理
会用Excel/SQL做基本的数据分析和展示
会用脚本语言进行数据分析，Python or R
有获取外部数据的能力，如爬虫
会基本的数据可视化技能，能撰写数据报告
熟悉常用的数据挖掘算法：回归分析、决策树、随机森林、支持向量机等

寻找最合适的学习路径

最高效的学习路径是什么样的？

你一定要清楚的是，你想要达到的目标是什么？如果你想利用数据分析的方法来支撑工作决策，那么你可能需要知道数据分析的流程是什么，通过数据分析的方法能获得哪些信息，这些信息可以用来支撑什么工作。

然后你需要知道要达到这样的目的，需要哪些必备的技能，哪些是不需要学习的。其实在这个过程中你对知识的框架就有了大概的了解，并知道如何去避免无效的信息。

更重要的是，你需要了解，完成一个数据分析项目，基本的流程是什么。这样你才知道学习的知识，在具体的工作中是如何应用，并能够在学习之后进行针对性的训练，做到有的放矢。

数据分析的工作流程

定义问题

在做具体的分析前，你需要确定要分析的问题是什么？你想得出哪些结论？

比如某地区空气质量变化的趋势是什么？

影响公司销售额增长的关键因素是什么？

生产环节中影响产能和质量的核心指标是什么？

如何对分析用户画像并进行精准营销？

如何基于历史数据预测未来某个阶段用户行为？

问题的定义需要你去了解业务的核心知识，并从中获得一些可以帮助你进行分析的经验。

数据获取

有了具体的问题，你就需要获取相关的数据了。比如你要探究北京空气质量变化的趋势，你可能就需要收集北京最近几年的空气质量数据、天气数据，甚至工厂数据、气体排放数据、重要日程数据等等。

如果你要分析影响公司销售的关键因素，你就需要调用公司的历史销售数据、用户画像数据、广告投放数据等。

数据的获取方式有多种。

一是公司的销售、用户数据。可以直接从企业数据库调取，所以你需要SQL技能去完成数据提取等的数据库管理工作。比如你可以根据你的需要提取2017年所有的销售数据、提取今年销量最大的50件商品的数据、提取上海、广东地区用户的消费数据……，SQL可以通过简单的命令帮你完成这些工作。

第二种是获取外部的公开数据集，一些科研机构、企业、政府会开放一些数据，你需要到特定的网站去下载这些公开数据。

第三种是利用八爪鱼这样的采集工具或者编写网页爬虫。比如你可以获取招聘网站某一职位的招聘信息、租房网站上某城市的租房信息，获取知乎点赞排行等。基于互联网的数据，你可以对某个行业、某种人群进行分析，这算是非常靠谱的市场调研、竞品分析的方式了。

数据预处理

原始的数据可能会有很多问题，比如残缺的数据、重复的数据、无效的数据等等。把这些影响分析的数据处理好，才能获得更加精确地分析结果。

比如空气质量的数据，其中有很多天的数据由于设备的原因是没有监测到的，有一些数据是记录重复的，还有一些数据是设备故障时监测无效的。

那么我们需要用相应的方法去处理，比如残缺数据，我们是直接去掉这条数据，还是用临近的值去补全，这些都是需要考虑的问题。

当然在这里我们还可能会有数据的分组、基本描述统计量的计算、基本统计图形的绘制、数据取值的转换、数据的正态化处理等，能够帮助我们掌握数据的分布特征，是进一步深入分析和建模的基础。

数据分析与建模

在这个部分需要了解基本的数据分析方法、数据挖掘算法，了解不同方法适用的场景和适合的问题。分析时应切忌滥用和误用统计分析方法。滥用和误用统计分析方法主要是由于对方法能解决哪类问题、方法适用的前提、方法对数据的要求不清等原因造成的。

比如你发现在一定条件下，销量和价格是正比关系，那么你可以据此建立一个线性回归模型，你发现价格和广告是非线性关系，你可以先建立一个逻辑回归模型来进行分析。

当然你也可以了解一些数据挖掘的算法、特征提取的方法来优化自己的模型，获得更好的结果。

数据可视化及数据报告撰写

分析结果最直接的是统计量的描述和统计量的展示。

比如我们通过数据的分布发现数据分析师工资最高的5个城市，目前各种编程语言的流行度排行榜，近几年北京空气质量的变化趋势，商品消费者的地区分布……这些都是我们通过简单数据分析与可视化就可以展现出的结果。

另外一些则需要深入探究内部的关系，比如影响产品质量最关键的几个指标，你需要对不同指标与产品质量进行相关性分析之后才能得出正确结论。又比如你需要预测未来某个时间段的产品销量，则需要你对历史数据进行建模和分析，才能对未来的情况有更精准的预测。

数据分析报告不仅是分析结果的直接呈现，还是对相关情况的一个全面的认识。所以你需要一个讲故事的逻辑，如何从一个宏观的问题，深入、细化到问题内部的方方面面，得出令人信服的结果。

你看，其实数据分析就这几个步骤，实现起来也感觉并不难。最好的学习路径是什么，就是按照解决问题的流程去学习。你了解这个流程，然后循序渐进深入每个部分，你会觉得这是一件特别容易上手的事情。

当然如何寻找、筛选优质学习资源，如何避开学习过程中的坑，遇到问题何如解决……这些本身都是我们学习过程中会遇到的问题。

不过不用担心，DC学院推出的这门系统的数据分析课程，就是按照这样的学习路径。是无数分析师的爬坑经验、以及无数本书的总结，60天，足够打败市面上多半所谓的分析师。

640?wx_fmt=png

关于学习路径

我们知道一般的数据分析流程是：“数据获取-数据存储-数据清洗-Python数据建模与分析-数据可视化与报告”，而课程正是按照实际的分析流程搭建整体框架。这条学习路线足够清晰，没有一上来直接灌输大量理论，而是在实践中学习，这就有效过滤掉了无效知识。

每学习一部分知识，能解决实际的问题。比如学习 Python 爬虫，就能获取相应的数据；学习 pandas，就能将获取的数据进行清洗；学习 Seaborn，你就可以实现炫酷的可视化……即便是对于纯小白来说，也没有什么压力。

640?wx_fmt=gif

数据清洗-获得干净数据

640?wx_fmt=gif

数据可视化-探索性数据分析

附：《数据分析（入门）》课程大纲

60天入门数据分析师

第一章：开启数据分析之旅（1天）

1) 数据分析的一般流程及应用场景

2) Python 编程环境的搭建及数据分析包的安装

第二章：获取你想要的数据 （2周）

1) 获取互联网上的公开数据集

2) 用网站 API 爬取网页数据

3) 爬虫所需的 HTML 基础

4) 基于 HTML 的爬虫，Python（Beautifulsoup）实现

5) 网络爬虫高级技巧：使用代理和反爬虫机制

6) 应用案例：爬取豆瓣 TOP250 电影信息并存储

第三章：数据存储与预处理 （2周）

1) 数据库及 SQL 语言概述

2) 基于 HeidiSQL 的数据库操作

3) 数据库进阶操作：数据过滤与分组聚合

4) 用 Python 进行数据库连接与数据查询

5) 其他类型数据库：SQLite&MongoDB

6) 用 Pandas 进行数据预处理：数据清洗与可视化

第四章：统计学基础与 Python 数据分析（3周）

1）探索型数据分析：绘制统计图形展示数据分布

2）探索型数据分析实践：通过统计图形探究数据分布的潜在规律

3）描述统计学：总体、样本和误差，基本统计量

4）推断统计学：概率分布和假设检验

5）验证型数据分析实践：在实际分析中应用不同的假设检验

6）预测型数据分析：线性回归

7）预测型数据分析：Python中进行线性回归（scikit-learn实现）

8) 预测型数据分析：分类及逻辑回归

9) 预测型数据分析：其它常用回归和分类算法（k近邻、决策树、随机森林）

10) 预测型数据分析：聚类算法（k均值、DBSCAN）

11) 预测型数据分析：用特征选择方法优化模型

12) 预测型数据分析实践：用 scikit-learn 实现数据挖掘建模全过程

13) 预测型数据分析实践：用 rapidminer 解决商业分析关键问题

14) 高级数据分析工具：机器学习、深度学习初探

第五章报告撰写及课程总结 （1周）

1) 养成数据分析的思维

2) 数据分析的全流程及报告撰写的技巧

3) 课程回顾以及一些拓展

关于学习资料

即便你有很强的资源获取能力，或者你已经收藏了很多干货，但我们还是很想帮你节约筛选有效信息的时间，已经帮你找到最有用的那部分，你可以把更多的时间用来做更多的练习和实践。

考虑到各种各样的问题，课程中每一节都准备了学习资料。主要包含四个部分：

1 课程中重要的知识点，资料中会进行详细阐述，帮助理解；
2 默认你是个小白，补充所有基础知识，哪怕是软件的安装与基本操作；
3 课程中老师的参考代码打包，让你有能力去复现案例；
4 提供超多延伸资料和更多问题的思路和实践代码，让你可以去做更多的事情。

640.png?

某节部分学习资料

关于实践项目

我们在课程中准备了很多基于真实数据的实践项目，每个章节你都能够得到实际的训练，跟着完成一遍，你就能熟悉数据分析的工作流程，掌握其中所需的技术细节。

首次将课程与数据分析/挖掘竞赛相结合，让你有针对性地在真实数据中去实践，并客观地检测自己的学习成果。提交分析结果可以即时获得评分，并查看自己在同学中的排名。

640.png?

关于课程老师

课程主讲老师王乐业是港科大的博士后，在数据挖掘方面成果不俗。更重要的是，他喜欢分享，知乎粉丝不少，能把知识提炼到极致，所以课程全是干货，没有废话。

周涛教授很多人比较熟悉，作为这门课的研发老师，他也将自己多年的大数据分析和挖掘的经验、教学经验倾注其中。所以课程不仅是知识，还有思维和学习方法，你完全可以迁移到其它层面。

【课程主讲老师】

王乐业
香港科技大学博士后

王乐业，香港科技大学博士后，法国国立电信学院及巴黎六大计算机科学与技术专业博士。本科和硕士毕业于北京大学计算机科学与技术专业。目前研究方向研究方向为城市时空数据挖掘。从事研究工作包括通过社交网络识别个人兴趣、通过移动通信网络推理人群移动模式、以及通过公共交通数据优化交通站点分布等。发表论文20余篇，其中SCI10余篇，引用300余次。

【课程研发老师】

周涛
电子科技大学教授

周涛，电子科技大学教授、大数据研究中心主任。主要从事统计物理与复杂性，数据挖掘与数据分析方面的研究。在 Physics Reports、PNAS等国际 SCI 期刊发表300余篇学术论文，引用超过17000次，H 指数为63。2015年入选全国十大科技创新人物，超级畅销书《大数据时代》译者，畅销书《为数据而生:大数据创新实践》作者。周涛教授参与课程的研发和课程体系的设计，以多年的教学科研和企业数据团队管理经验为课程的顶层设计保驾护航。

除此之外，你还会遇到指导你每一个细节的答疑老师，在学习群里，你的问题能够得到快速解答，即便是最初级的问题。还有一群未来的优秀分析师，跟你一起，探索数据分析技术。在短时间内，有不少同学都有了从0到1的进步：

640?wx_fmt=jpeg

640?wx_fmt=png

【课程信息】

「上课形式」
录播课程，可随时开始学习，反复观看

「学习周期」
建议每周学习至少8小时，建议两个月内完成一遍

「学习路径」
数据获取-数据预处理-数据建模与分析-可视化与报告

「面向人群」
零基础的小白、负基础的小白白

「答疑形式」
学习群老师随时答疑，即便是最初级的问题

「课程资料」
重点笔记、操作详解、参考代码、课后拓展

「课程证书」
学完课程并达到要求，发放数据分析师结业证书