【大数据】最新大数据学习路线(完整详细版,含整套教程)

大数据学习路线

java(Java se,javaweb)
Linux(shell,高并发架构,lucene,solr)
Hadoop(Hadoop,HDFS,Mapreduce,yarn,hive,hbase,sqoop,zookeeper,flume)
机器学习(R,mahout)
Storm(Storm,kafka,redis)
Spark(scala,spark,spark core,spark sql,spark streaming,spark mllib,spark graphx)
Python(python,spark python)?
云计算平台(docker,kvm,openstack)

一、Linux
lucene: 全文检索引擎的架构
solr: 基于lucene的全文搜索服务器,实现了可配置、可扩展并对查询性能进行了优化,并且提供了一个完善的功能管理界面。

二、Hadoop
HDFS: 分布式存储系统,包含NameNode,DataNode。NameNode:元数据,DataNode。DataNode:存数数据。
yarn: 可以理解为MapReduce的协调机制,本质就是Hadoop的处理分析机制,分为ResourceManager NodeManager。
MapReduce: 软件框架,编写程序。
Hive: 数据仓库 可以用SQL查询,可以运行Map/Reduce程序。用来计算趋势或者网站日志,不应用于实时查询,需要很长时间返回结果。
HBase: 数据库。非常适合用来做大数据的实时查询。Facebook用Hbase存储消息数据并进行消息实时的分析
ZooKeeper: 针对大型分布式的可靠性协调系统。Hadoop的分布式同步等靠Zookeeper实现,例如多个NameNode,active standby切换。
Sqoop: 数据库相互转移,关系型数据库和HDFS相互转移
Mahout: 可扩展的机器学习和数据挖掘库。用来做推荐挖掘,聚集,分类,频繁项集挖掘。
Chukwa: 开源收集系统,监视大型分布式系统,建立在HDFS和Map/Reduce框架之上。显示、监视、分析结果。
Ambari: 用于配置、管理和监视Hadoop集群,基于Web,界面友好。

二、Cloudera
Cloudera Manager: 管理 监控 诊断 集成
Cloudera CDH:(Cloudera's Distribution,including Apache Hadoop) Cloudera对Hadoop做了相应的改变,发行版本称为CDH。
Cloudera Flume: 日志收集系统,支持在日志系统中定制各类数据发送方,用来收集数据。
Cloudera Impala: 对存储在Apache Hadoop的HDFS,HBase的数据提供直接查询互动的SQL。
Cloudera hue: web管理器,包括hue ui,hui server,hui db。hue提供所有CDH组件的shell界面的接口,可以在hue编写mr。

三、机器学习/R
R: 用于统计分析、绘图的语言和操作环境,目前有Hadoop-R
mahout: 提供可扩展的机器学习领域经典算法的实现,包括聚类、分类、推荐过滤、频繁子项挖掘等,且可通过Hadoop扩展到云中。

四、storm
Storm: 分布式,容错的实时流式计算系统,可以用作实时分析,在线机器学习,信息流处理,连续性计算,分布式RPC,实时处理消息并更新数据库。
Kafka: 高吞吐量的分布式发布订阅消息系统,可以处理消费者规模的网站中的所有动作流数据(浏览,搜索等)。相对Hadoop的日志数据和离线分析,可以实现实时处理。目前通过Hadoop的并行加载机制来统一线上和离线的消息处理
Redis: 由c语言编写,支持网络、可基于内存亦可持久化的日志型、key-value型数据库。

五、Spark
Scala: 一种类似java的完全面向对象的编程语言。
jblas: 一个快速的线性代数库(JAVA)。基于BLAS与LAPACK,矩阵计算实际的行业标准,并使用先进的基础设施等所有的计算程序的ATLAS艺术的实现,使其非常快。
Spark: Spark是在Scala语言中实现的类似于Hadoop MapReduce的通用并行框架,除了Hadoop MapReduce所具有的优点,但不同于MapReduce的是job中间输出结果可以保存在内存中,从而不需要读写HDFS,因此Spark能更好的适用于数据挖掘与机器学习等需要迭代的MapReduce算法。可以和Hadoop文件系统并行运作,用过Mesos的第三方集群框架可以支持此行为。
Spark SQL: 作为Apache Spark大数据框架的一部分,可用于结构化数据处理并可以执行类似SQL的Spark数据查询
Spark Streaming: 一种构建在Spark上的实时计算框架,扩展了Spark处理大数据流式数据的能力。
Spark MLlib: MLlib是Spark是常用的机器学习算法的实现库,目前(2014.05)支持二元分类,回归,聚类以及协同过滤。同时也包括一个底层的梯度下降优化基础算法。MLlib以来jblas线性代数库,jblas本身以来远程的Fortran程序。
Spark GraphX: GraphX是Spark中用于图和图并行计算的API,可以在Spark之上提供一站式数据解决方案,可以方便且高效地完成图计算的一整套流水作业。
Fortran: 最早出现的计算机高级程序设计语言,广泛应用于科学和工程计算领域。
BLAS: 基础线性代数子程序库,拥有大量已经编写好的关于线性代数运算的程序。
LAPACK: 著名的公开软件,包含了求解科学与工程计算中最常见的数值线性代数问题,如求解线性方程组、线性最小二乘问题、特征值问题和奇异值问题等。
ATLAS: BLAS线性算法库的优化版本。
Spark Python: Spark是由scala语言编写的,但是为了推广和兼容,提供了java和python接口。

六、Python
Python: 一种面向对象的、解释型计算机程序设计语言。

七、云计算平台
Docker: 开源的应用容器引擎
kvm: (Keyboard Video Mouse)
openstack:开源的云计算管理平台项目
 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/456167.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

264编码基本概念 FFMpeg的解码流程

下面转自http://topic.csdn.net/u/20081020/16/7156e0b2-dbfb-4b4f-af59-2be04cf9a420.html 的8楼 1、NAL、Slice与frame意思及相互关系 NAL指网络提取层,里面放一些与网络相关的信息Slice是片的意思,264中把图像分成一帧(frame)…

谷歌浏览器开发调试工具中Sources面板 js调试等 完全介绍

这次分享的是Chrome开发工具中最有用的面板Sources。 Sources面板几乎是我最常用到的Chrome功能面板,也是在我看来决解一般问题的主要功能面板。通常只要是开发遇到了js报错或者其他代码问题,在审视一遍自己的代码而一无所获之后,我首先就会打…

java XML解析防止外部实体注入

/** * 增加防止部实体注入逻辑* <功能详细描述>* param reader* throws SAXException* see [类、类#方法、类#成员]*/public static void setReaderFeature(SAXReader reader)throws SAXException{reader.setFeature("http://apache.org/xml/features/disallow-doct…

【Python】最新Python学习路线(完整详细版,含整套教程)

python目前应用最广的三个岗位&#xff1a;全栈开发、数据分析、运维开发&#xff0c;今天我们就以这三个重点的岗位来做一下自学Python的规划&#xff0c;希望你在学之前就能有明确的学习方向。 最近开始整理python的资料&#xff0c;博主建立了一个qq群&#xff0c;希望给大家…

程序员,软件测试知多少?

送给初级程序员的测试认知文作为开发同学&#xff0c;一些基本的测试岗位相关知识还是很有必要了解一下&#xff0c;免的某些同学在工作中和测试同学斗嘴、打架、群殴等以及被测试鄙视....。 我们常常听说的一些测试专业术语&#xff0c;比如白盒、黑盒、单元测试&#xff0c;相…

ffmpeg最新源代码(定期更新)

为了方便那些不能连接到ffmpeg的SVN仓库更新源代码的用户&#xff0c;ffmpeg工程组特开辟一个专区&#xff0c;定期更新ffmpeg的源代码&#xff0c;并将其快照上传&#xff0c;有需要的朋友可以长期关注本帖。ffmpeg的编译指令通常为&#xff1a;1、配置&#xff1a;configurat…

vue 入门环境搭建

公司项目要用vue.js来开发&#xff0c;要使用vue来开发前端框架&#xff0c;首先要有环境&#xff0c;所以给大家介绍一下如何搭建vue环境。其实很简单&#xff1a; 1.首先下载安装node.js。 去官网https://nodejs.org/zh-cn/下载安装包。 2.安装webpack 打开cmd命令界面&#…

【解决】Win10修改host没有权限问题

Step1&#xff1a;右键文件选择属性&#xff0c;选择安全&#xff0c;点击编辑&#xff1a; Step2&#xff1a;在弹窗中点击添加&#xff0c;在弹窗中点击高级&#xff1a; Step3&#xff1a;在弹窗中点击立即查找&#xff0c;选中当前用户&#xff0c;点击确定&#xff1a; …

[已授权] 互联网定位技术小谈

​ 诚邀阿里云先知社区邀请&#xff0c;不胜感激&#xff01;今日小编在此为大家介绍一下互联网中所应用的定位技术。互联网的发展日新月异&#xff0c;技术迭代很快&#xff0c;各行各业的智慧在互联网这片蓝天下碰撞结晶&#xff0c;造福大众。今天要讲述的集中定位方式&…

H.264解码器ffmpeg完整优化代码(包括PC和Windows Mobile版本)

这里把前段时间对ffmpeg0.48进行简化和修改&#xff0c;包括修正内存泄漏&#xff0c;修改一些语句使Max Speed能够打开这些。其实代码还是比较乱的&#xff0c;也有很大的继续优化空间。这个工作花费了我一些休息时间&#xff0c;不过&#xff0c;我确实学习到了很多。这个代码…

1.4.在TypeScript中使用JQuery

我们可以通过类型定义文件(*.d.ts)实现在TS中使用JQ 1.4.1.方式1 通过GitHub项目&#xff0c;手动下载&#xff0c;不过推荐使用第二种方式 项目地址&#xff1a; https://github.com/DefinitelyTyped/DefinitelyTyped 1.4.2.通过typings的方式 项目地址&#xff1a;https://gi…

Python的DataFrame切片大全(包含多重索引)

码字不易&#xff0c;喜欢请点赞&#xff01;&#xff01;&#xff01; 摘要 这篇主要讲解如何对pandas的DataFrame进行切片&#xff0c;包括取某行、某列、某几行、某几列、以及多重索引的取数方法。 • 选取行名、列名、值 • 以标签&#xff08;行、列的名字&#xff09;…

sql server 保留小数,向上保留指定位数的小数,仅记录,勿看。

比如 4.05 要取成 4.1 &#xff0c; 4.16 取成 4.2 &#xff0c;4.5 取成 4.5 &#xff0c;意思就是小数部分第二位不管是多少都丢掉然后加0.1&#xff0c;但是如果是 4.5 这样完整的就不需要处理。 可以像下面这么写。 select ceiling(4.56*10)/10转载于:https://www.cnblogs.…

HelloCsdn

博客声明我的第一个文章我的第一个文章 从现在开始,我要再这里记录我的学习心得和体会,让我们相互学习,一起努力,共同进步.

H264学习指南

因为最近手头的活基本搞完了&#xff0c;人也闲了下来&#xff0c;这么热的天气&#xff0c;突然想写这么一篇文章。不过首先声明的是我对H264并不是太熟悉。但多多少少也学习了这么久了&#xff0c;写点心得出来对自己是个交待&#xff0c;同时也希望给新手们一点帮助&#xf…

什么是数据分析的关键指标?

什么是核心关键指标呢&#xff1f; 这是一个好问题&#xff0c;不过没有标准的答案。企业性质不同&#xff0c;所处行业、发展阶段不同&#xff0c;关注点当然不同。不过大体可以这样来划分。 1、发展阶段不同&#xff0c;需求不同 对于一个想要做数据化管理的企业来说&#xf…

01Pandas_数据结构

Pandas数据结构 做python数据分析&#xff0c;数据挖掘&#xff0c;机器学习的童鞋应该都离不开pandas。在做数据的预处理的时候pandas尤为给力。 本文主要介绍pandas中的两种数据结构&#xff1a;series,dataframe。 import pandas as pd 1.Series 首先来介绍series数据结…

加密函数

MD5&#xff1a;密码为web页面做准备&#xff0c;建议使用MD5 PASSWORD() :修改当前用户或其他用户密码 mysql> SELECT MD5(admin); #对admin进行MD5的加密&#xff08;32位&#xff09;----------------------------------| MD5(admin) |--------------------------------…

如何使用notepad运行python程序

关于使用notepad运行python程序 首先要确保python解释器已经安装成功,查看方法,windows可以在命令提示符中查看,通过按下winR键,调出运行窗口,在输入框中输入cmd回车,然后在命令行中输入python,若出现版本信息,例如Python 3.6.1 (v3.6.1:69c0db5, Mar 21 2017, 18:41:36) [MSC…

H.264学习历程(天之骄子)

半年前&#xff0c;我知道了H.264这个名词。那个时候决定学习H.264&#xff0c;可是我连资料都不知道如何收集。而且整个学校就只有我一个人在学习H.264&#xff0c;找不到人交流&#xff0c;所以那个时候学得真的是举步维艰&#xff0c;很痛苦&#xff0c;而能在网上认识一个学…