大数据的作用:发现过去事件的特征
预测未来
最优化选择
职位划分:数据产品经理
数据分析师->商业敏感性,产品经理的助手
数据研发工程师
数据挖掘工程师/数据科学家
需要准备的技术知识:
Linux操作系统与网络编程:进程/线程通信,内存,TCP/IP,SaaS、PaaS、IaaS
Java:多线程,JVM,反射,设计模式,Springboot
数据结构与算法
Hadoop生态体系:
Hadoop起源与安装、MapReduce快速入门、Hadoop分布式文件系统、Hadoop文件I/O详解、MapReduce工作原理、MapReduce编程开发、Hive数据仓库工具、开源数据库HBase、Sqoop与Oozie;
Spark生态体系:
Spark简介、Spark部署和运行、Spark程序开发、Spark编程模型、作业执行解析、Spark SQL与DataFrame、深入Spark Streaming、Spark MLlib与机器学习、GraphX与SparkR、spark项目实战、scala编程、Python编程;
Storm实时开发:
storm简介与基本知识、拓扑详解与组件详解、Hadoop分布式系统、spout详解与bolt详解、zookeeper详解、storm安装与集群搭建、storm-starter详解、开源数据库HBase、trident详解;
算法:分类/聚类/关联/预测,Apriori,决策树,随机森林,SVM
BerkeleyX: CS190.1x Scalable Machine Learning
这门课是伯克利开的,教机器学习基础、Python Spark实现。我很懂机器学习,但不懂spark和python,花了1周多时间看完视频、做完作业。如果没机器学习基础的话几周应该够了。学完了可以用spark处理大数据,做分类、推荐系统。
TalkingData