hadoop笔记

  • 供个人学习使用

1.大数据的特点

大、多、值、快、信,即5V:

  • Volume(大量):大数据的采集、计算、存储量都非常庞大,待处理数据都是TB、PB、乃至EB级别的
  • Variety(多样性):相对于以往便于存储的 以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图 片、地理位置信息等,这些多类型的数据对数据的处理能力提出了更高要求。
  • Value(低价值密度):价值密度的高低与数据总量的大小成反比
  • Velocity(高速):数据的采集、计算和存储速度都很快
  • Veracity(可靠):数据精准可靠

2.hadoop主要解决得问题

  • 海量数据的存储和海量数据的分析计算问题 

3.Hadoop的优势:

  • 高可靠性。Hadoop通过在多个节点上保存数据副本,确保即使某个计算节点或存储节点发生故障,数据也不会丢失。
  • 高扩展性。Hadoop能够在现有的计算机集群中轻松扩展,支持成千上万的节点,使其能够处理大规模数据。
  • 高效性。Hadoop能够在多个节点之间动态移动数据,并保持节点间的动态平衡,从而提高数据处理速度。
  • 高容错性。Hadoop能够自动重新分配失败的任务和计算节点,确保任务继续执行。
  • 低成本。Hadoop是开源的,用户可以免费下载和使用,显著降低了软件成本。
  • 广泛的适用性。Hadoop的框架是基于Java编写的,使其能够运行在多种操作系统和硬件平台上。
  • 成熟的技术生态和社区支持。Hadoop拥有一个成熟的技术生态和强大的开源社区支持,提供了丰富的工具和组件,便于用户集成和扩展。

4.Hadoop的组成

  • 在Hadoop1.x版本中,Hadoop中的MapReduce同时处理业务逻辑运算和资源的调度,其耦合度较大
  • 在Hadoop2.x版本中,在此基础上增加了Yarn,此后,MapReduce只处理业务逻辑运算,Yarn只负责资源调度
  • Hadoop3.x版本相较于Hadoop2.x版本在组成上没有变化

4.1 HDFS 

HDFS,全称Hadoop Distributed File System, 是Apache Hadoop项目的一个核心组件,是一个分布式文件系统,旨在存储大规模数据集并提供高可用性、容错性和高吞吐量的数据访问

HDFS主要由NameNode(nn)、DataNode(dn)和Secondary NameNode(2nn)组成

  • NameNode:存储文件的元数据,如文件名,文件目录结构,文件属性(生成时间、副本数、文件权限),以及每个文件的块列表块所在的DataNode位置信息等。
  • DataNode:存储具体的文件,在本地文件系统存储文件块数据,以及块数据的校验和。
  • Secondary NameNode:每隔一段时间对NameNode进行数据备份,在NameNode挂掉时可以辅助恢复NameNode(会丢掉一部分数据,生产过程中采用配置两个NameNode的方式代替)

4.2 MapReduce

MapReduce分为Map和Reduce两个阶段:

  • Map:并行处理输入输入的数据并将处理结果送往Reduce端相应的分区,各Mapper之间相互独立。
  • Reduce:对Map阶段送来的处理结果进行汇总,各Reducer之间相互独立。

4.3 Yarn

Yarn,全称Yet Another Resource Negotiator,是一种资源管理者,负责Hadoop的资源调度。主要由Resource Manager(RM)、NodeManager(NM)、ApplicationManager(AM)和Container组成。

  • ResourceManager(RM):整个集群资源的掌管者,负责协调和管理集群中的资源,包括内存、CPU和其他计算资源
  • ApplicationManager(AM):ResourceManager的一个子组件,其主要职责是管理MapReduce所有应用程序的生命周期和资源分配。ApplicationManager负责与ResourceManager协调,以分配所需的计算和存储资源。
  • NodeManager(NM):NodeManager是ResourceManager的下级组件,负责管理单个数据节点上的计算和存储资源。它监视节点上的资源使用情况,包括CPU、内存和磁盘空间等,以便及时向ResourceManager报告可用资源的情。
  • Container:容器,相当一台独立的服务器,里面封装了任务运行所需要的资源,如内存、CPU、磁盘、网络等。

4.4 HDFS、MapReduce、Yarn之间的关系

  • HDFS作为Hadoop的底层存储层,为MapReduce和其他大数据处理框架提供了高吞吐量的数据访问。
  • MapReduce是Hadoop生态系统中的一个计算框架,它可以从HDFS中读取数据,并将处理结果写回HDFS。MapReduce依赖于HDFS来存储输入和输出数据,以及在YARN上执行任务。
  • YARN充当资源管理器和作业调度器,它协调集群上运行的各种应用程序,包括MapReduce作业。MapReduce作业的执行需要YARN来分配和管理计算资源。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/796908.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

在线监测系统在水厂水质管理工程中的应用与研究

【摘要】:随着水厂水质管理技术和管理水平的提升,达到了在线监测系统通过监测数据的反馈,及时发现问题,快速处理事故,优化了水资源的利用率,提高了供水系统的稳定性和安全性,从而有效地提高供水…

科锐国际(计算机类),快手,CVTE,得物,蓝月亮,蓝禾,奇安信,顺丰,康冠科技,金证科技24春招内推

科锐国际,快手,CVTE,得物,蓝月亮,蓝禾,奇安信,顺丰,康冠科技,金证科技24春招内推 ①得物 【岗位】技术,设计,供应链,风控,…

FX110网:菲律宾 eToro 发起人面临最高 21 年监禁的风险

任何在菲律宾推广 eToro 的“推销员、经纪人、经销商或代理商”将面临 500 万比索(约 88,500 美元)的罚款或最高 21 年的监禁,或两者并罚。据当地监管机构称,这是因为“无权在菲律宾向公众出售或发行证券”。 菲律宾证券交易委员会…

Springboot相关知识-图片描述(学习笔记)

学习java过程中的一些笔记,觉得比较重要就顺手记录下来了~ 目录 一、前后端请求1.前后端交互2.简单传参3.数组集合传参4.日期参数5.Json参数6.路径参数7.响应数据8.解析xml文件9.统一返回类10.三层架构11.分层解耦12.Bean的声明13.组件扫描14.自动注入 一、前后端请…

时序预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络时间序列预测

时序预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络时间序列预测 目录 时序预测 | Matlab实现CPO-BiLSTM【24年新算法】冠豪猪优化双向长短期记忆神经网络时间序列预测效果一览基本介绍程序设计参考资料 效果一览 基本介绍 1.Matlab实现CPO-BiLST…

由两个线路驱动器、两个线路接收器和双电荷泵电路组成的芯片D3232,主要用于工控主板、新能源充电桩等众多涉及RS232通讯的产品中

一、应用领域 D3232芯片主要用于工控主板、工业控制器、程序烧录下载器、仿真器、新能源充电桩等众多涉及RS232通讯的产品。 二、基本特性 D3232芯片由两个线路驱动器、两个线路接收器和双电荷泵电路组成,具有HBM>15kV、CDM>2kV的ESD保护能力,并且…

在线视频教育平台|基于Springboot的在线视频教育平台系统设计与实现(源码+数据库+文档)

在线视频教育平台目录 基于Springboot的在线视频教育平台系统设计与实现 一、前言 二、系统设计 三、系统功能设计 1、前台: 2、后台 用户功能模块 教师功能模块 四、数据库设计 五、核心代码 六、论文参考 七、最新计算机毕设选题推荐 八、源码获取&a…

Vue - 3( 15000 字 Vue 入门级教程)

一:初识 Vue 1.1 收集表单数据 收集表单数据在Vue.js中是一个常见且重要的任务,它使得前端交互变得更加灵活和直观。 Vue中,我们通常使用v-model指令来实现表单元素与数据之间的双向绑定,从而实现数据的收集和更新。下面总结了…

Java Spring IoCDI :探索Java Spring中控制反转和依赖注入的威力,增强灵活性和可维护性

💓 博客主页:从零开始的-CodeNinja之路 ⏩ 收录文章:Java Spring IoC&DI :探索Java Spring中控制反转和依赖注入的威力,增强灵活性和可维护性 🎉欢迎大家点赞👍评论📝收藏⭐文章 目录 前提小知识:高内…

LeetCode-78. 子集【位运算 数组 回溯】

LeetCode-78. 子集【位运算 数组 回溯】 题目描述:解题思路一:回溯,回溯三部曲解题思路二:0解题思路三:0 题目描述: 给你一个整数数组 nums ,数组中的元素 互不相同 。返回该数组所有可能的 子…

【SpringCloud】Nacos 注册中心

目 录 一.认识和安装 Nacos1.Windows安装1. 下载安装包2. 解压3. 端口配置4. 启动5. 访问 2.Linux安装1. 安装JDK2. 上传安装包3. 解压4. 端口配置5. 启动 二.服务注册到 nacos1. 引入依赖2. 配置 nacos 地址3. 重启 三.服务分级存储模型1. 给 user-service 配置集群2. 同集群优…

JavaWeb前端基础(HTML CSS JavaScript)

本文用于检验学习效果&#xff0c;忘记知识就去文末的链接复习 1. HTML 1.1 HTML基础 结构 头<head>身体<body> 内容 图片<img>段落<p>图标<link> 标签 单标签双标签 常用标签 div&#xff1a;分割块span&#xff1a;只占需要的大小p&…

Jones矩阵符号运算

文章目录 Jones向量Jones矩阵 有关Jones矩阵、Jones向量的基本原理&#xff0c;可参考这个&#xff1a; 通过Python理解Jones矩阵&#xff0c;本文主要介绍sympy中提供的有关偏振光学的符号计算工具 Jones向量 Jones向量是描述光线偏振状态的重要工具&#xff0c;例如一个偏振…

LINUX上,用命令cmake编译CLion项目

原来CLion项目是远程到开发板上进行编译&#xff0c;十分方便。现在想在虚拟机环境中编译&#xff0c;更加方便。于是进行了一番研究&#xff0c;还挺简单。 默认编译选项 搜索到的编译命令如下&#xff0c;不适合我的项目。 cmake -B${CMAKE_DIR} -H. 我的编译命令 开始编…

从三个维度看,你的企业是否需要引入精益管理咨询?

在快速变化的商业环境中&#xff0c;企业不断寻求提升自身运营效率和竞争力的方法。其中&#xff0c;精益管理作为一种追求卓越、消除浪费的管理理念&#xff0c;被越来越多的企业所认可。但是&#xff0c;如何判断自己的组织是否需要进行精益企业管理咨询呢&#xff1f;天行健…

141.环形链表

题目描述 解题思路 ——————遍历链表&#xff0c;哈希表记录节点—————— 时间复杂度O(n)&#xff0c;空间复杂度O(n) 1.cur指针遍历链表&#xff0c;并且创建哈希表&#xff0c;用于记录节点的地址 2.每次遍历先判断地址是否在哈希表中&#xff0c;若在则直接返回…

java 方法参数类型为double 可以传 int类型?

在Java语言中&#xff0c;方法的参数类型定义了调用该方法时应传递的数据类型。当一个方法的参数类型被定义为double时&#xff0c;实际上可以向该方法传递一个int类型的参数。这是因为Java支持基本数据类型之间的自动类型转换&#xff08;也称为隐式类型转换&#xff09;&…

【漏洞复现】通天星CMSV6车载视频监控平台FTP匿名访问

Nx01 产品简介 通天星车载视频监控平台软件拥有多种语言版本&#xff0c;应用于公交车车载视频监控、校车车载视频监控、大巴车车载视频监控、物流车载监控、油品运输车载监控等公共交通上。 Nx02 漏洞描述 通天星车载视频监控平台安装完毕后会默认开放端口2121作为ftp服务使用…

多语言婚恋交友APP开发的关键成功因素

随着移动互联网的快速发展&#xff0c;多语言婚恋交友APP的需求和发展逐渐成为了一个备受关注的话题。在全球范围内&#xff0c;人们希望通过移动应用来寻找爱情、建立关系和拓展社交圈子&#xff0c;因此开发一款具有全球影响力的多语言婚恋交友APP成为了许多开发者的目标。针…

Java实现Excel百万级数据的导入(约30s完成)

前言 在遇到大数据量excel&#xff0c;50MB大小或数百万级别的数据读取时&#xff0c;使用常用的POI容易导致读取时内存溢出或者cpu飙升。 本文讨论的是针对xlsx格式的excel文件上传&#xff0c;采用com.monitorjbl.xlsx.StreamingReader 。 什么是StreamReader? StreamReader…