初识Hadoop:大数据与Hadoop概述

1、大数据概述

大数据(big data),IT行业术语,是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。

大数据的主要特点(4V)是:

  1. 数据量大(Volume)
  2. 数据类别复杂(Variety)
  3. 数据处理速度快(Velocity)
  4. 和数据真实性高(Veracity)

还有的将大数据特点定义为6V模型,即增加了Valence(连接)、Value(价值)2V。

大数据相关的技术、框架:

  • 计算框架 离线计算:Hadoop MapReduce、Spark 实时计算:Storm、Spark Streaming、Flink
  • 存储框架 文件存储:Hadoop HDFS、Tachyon、KFS NOSQL数据库:HBase、MongoDB、Redis 全文检索:ES、Solr
  • 资源管理 YARN、Mesos
  • 日志收集 Flume、Logstash
  • 消息系统 Kafka、StormMQ、ZeroMQ、RabbitMQ
  • 查询分析 Hive、Impala、Pig、Presto、Phoenix、SparkSQL、Drill、Kylin、Druid

2、Hadoop

Hadoop 在大数据技术体系中的地位至关重要,Hadoop 是大数据技术的基础,对Hadoop基础知识的掌握的扎实程度,会决定在大数据技术道路上走多远。

hadoop是什么?

  • Hadoop是一个由Apache基金会所开发的分布式系统基础架构。
  • 主要解决数据存储和海量数据的分析计算问题。
  • 广义上说,Hadoop通常指一个广泛的概念——Hadoop生态圈。

Hadoop的优势!

  • 高可靠性。Hadoop按位存储和处理数据的能力值得人们信赖。
  • 高扩展性。Hadoop是在可用的计算机集簇间分配数据并完成计算任务的,这些集簇可以方便地扩展到数以千计的节点中。
  • 高效性。Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。
  • 高容错性。Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配。
  • 低成本。与一体机、商用数据仓库以及QlikView、Yonghong
    Z-Suite等数据集市相比,hadoop是开源的,项目的软件成本因此会大大降低。

Hadoop带有用Java语言编写的框架,因此运行在 Linux 生产平台上是非常理想的。

hadoop的组成!

  • HDFS: Hadoop Distributed File System 分布式文件系统
  • YARN: Yet Another Resource Negotiator 资源管理调度系统
  • Mapreduce:分布式运算框架

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/535868.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

W3C近期要闻:W3C战略重点报告新版发布

作者 | W3C中国 「OpenWeb开发者」依托于BOW(Brillant Open Web)团队,是一个专门的 Web 技术建设小组,致力于推动 OpenWeb 技术的发展,将不定期为读者同步W3C要闻。 注:由于微信不支持外链,了解…

Hadoop的安装及配置

PS:最新安装教程请参考Hadoop的安装与配置(设置单节点群集)详细教程 1、Hadoop安装前准备工作: 在开始Hadoop安装与配置之前,需要准备的环境:Linux系统、配置JDK环境变量。 2、安装 我们可以到Apache Hadoop的官网ht…

在 PWA 中使用 App Shell 模型提升性能和用户感知体验

作者|潘宇琪 编辑|Daisy 在构建 PWA 应用时,使用 App Shell 模型能够在视觉和首屏加载速度方面带来用户体验的提升。另外,在配合 Service Worker 离线缓存之后,用户在后续访问中将得到快速可靠的浏览体验。 在实践过…

【转】超酷的 mip-infinitescroll 无限滚动(无限下拉)

写在前面 无限滚动技术(又叫做无限下拉技术)被广泛应用于新闻类,图片预览类网站。对用户来讲,使用无限滚动的页面有源源不断的信息可以预览,增加用户在页面的停留时长。技术上原理也很简单,在页面加载时加…

日常问题——Mac下新建目录报Read-only file system

问题描述: 今天在根目录下,新建目录时出现了Read-only file system提示为只读的错误。电脑最近并没有非正常关机之类可能导致文件损伤的操作,但是最近倒是进行了一次系统更新。 解决方案(过程): 从系统更…

MongoDB(二):MongoDB的安装

这里以OSX系统为例,window和linux可以参考https://www.runoob.com/mongodb/mongodb-linux-install.html 1、我们使用 curl 命令来下载安装: # 进入 /usr/local cd /usr/local# 下载 sudo curl -O https://fastdl.mongodb.org/osx/mongodb-osx-ssl-x86_…

百度推出 MIP Baidu Path链接

在站长将站点 MIP 化时,需要关注 URL 的一共有三个:MIP URL, MIP-Cache URL 以及 MIP Baidu Path。 从 URL 说起 在互联网中,URL 定义页面的地址,每个 URL 对应一个页面。而 MIP URL 则是 MIP 页的原始地址,指向托管…

Postman接口测试(超详细整理)

常用的接口测试工具主要有以下几种 Postman:简单方便的接口调试工具,便于分享和协作。具有接口调试,接口集管理,环境配置,参数化,断言,批量执行,录制接口,Mock Server, …

mip-link 组件功能升级说明

背景描述 某个页面被多少页面引用(在其他页面上有指向这个页面的 a 标签),是搜索引擎判断这个页面价值的其中一个因子。这里的搜索引擎不只是指百度,还包括国内外其他的搜索引擎。 MIP 在最初设计 MIP url 跳转逻辑实现时&#…

日常问题——使用Xshell 连接虚拟机报错 Disconnected from remote host

问题描述: 使用Xshell进行连接虚拟机的操作时出现了Disconnected from remote host的错误! 解决方案(过程): 1、vim /etc/ssh/sshd_config 2、#UseDNS yes改为UseDNS no 3、重启service sshd restart 问题解决&…

【转】AB实验设计思路及实验落地

这篇文章会讨论: 1. 在什么情况下需要做 AB 实验 2. 从产品/交互角度,如何设计一个实验 3. 前端工程师如何打点 4. 如何统计数据,并保证数据准确可信 5. 如何分析实验数据,有哪些数据需要重点关注 6. 附:如何搭建…

简单实现MySQL数据实时增量同步到Kafka————Maxwell

任务需求:将MySQL里的数据实时增量同步到Kafka 1、准备工作 1.1、MySQL方面:开启BinLog 1.1.1、修改my.cnf文件 vi /etc/my.cnf [mysqld] server-id 1 binlog_format ROW1.1.2、重启MySQL,然后登陆到MySQL之后,查看是否已经修改过来: …

【转】mip-semi-fixed 走走又停停

写在前面 MIP 中悬浮元素的特殊情况 其实组件上线已经有一段时间了,最开始看到这个需求是站长提交了一个这中功能的组件过来,不过看过代码立刻就想到了 MIP 页面的特殊性:从结果页打开的 MIP 页面,是嵌套在一个 iframe 之中的。…

Mac使用Homebrew安装Kafka

1、使用brew install命令安装Kafka $ brew install kafka安装过程将依赖安装 zookeeper软件位置 /usr/local/Cellar/zookeeper /usr/local/Cellar/kafka配置文件位置 /usr/local/etc/kafka/zookeeper.properties /usr/local/etc/kafka/server.properties 备注:后…

广州站长沙龙 MIP 问题及答案

1. mip提交几个月时间了,生效量比较少,是什么原因? 答:提交 MIP 页面后,经过收录、校验、和生效三个步骤,才能在结果页看到闪电标。 1)提交 URL 后,spider 会去抓取收录&#xff1…

日常问题——初始化Hive仓库报错com.google.common.base.Preconditions.checkArgument

问题描述: 初始化Hive仓库报错Exception in thread “main” java.lang.NoSuchMethodError: com.google.common.base.Preconditions.checkArgument(ZLjava/lang/String;Ljava/lang/Object;)V 解决方案(过程): com.google.commo…

【转】百度站长平台MIP引入工具使用心得

MIP引入主动推送流程 对于 MIP 站点改造好了,我们如何提交数据,并且 MIP 提交后,我们能得到哪些数据的反馈,在这里简单的写一篇文章,说一下。 改造 MIP,我们一般是添加了一个二级域名站点进行改造&#x…

Hadoop之HDFS应用

1、通过http://127.0.0.1:8088/即可查看集群所有节点状态: 2、访问http://localhost:9870/即可查看文件管理页面(在3.0.0中在之前的版本中文件管理的端口是50070,替换为了9870端口): ————进入文件系统 ————…

MIP ACCESS细节剖析

什么是 MIP ACCESS MIP ACCESS 由百度 MIP 团队开发的一种页面访问权限控制机制,能够允许网页发布者在页面元素中定义内容标记,并结合用户访问情况进行综合评价,从而展现或隐藏页面中内容,直至用户登录、订阅或付费后才能够查看隐…

HDFS常用Shell命令

1、-ls: 显示目录信息 hadoop fs -ls /2、-mkdir:在HDFS上创建目录 hadoop fs -mkdir -p /demo/test3、-moveFromLocal:从本地剪切粘贴到HDFS hadoop fs -moveFromLocal a.txt /demo/test/a.txt4、-appendToFile:追加一个文件到已经存在…