大数据学习(1)-Hadoop

&&大数据学习&&

🔥系列专栏: 👑哲学语录: 承认自己的无知,乃是开启智慧的大门
💖如果觉得博主的文章还不错的话,请点赞👍+收藏⭐️+留言📝支持一下博>主哦🤞


Hadoop是一个开源的分布式计算平台,用于处理大规模数据集。Hadoop的核心组件包括:

HDFS(Hadoop Distributed File System)

MapReduce和Yarn。

Hadoop的运行机制基于分布式计算的概念,即将大规模的计算任务分解为多个小任务,并在多台计算机上并行处理。Hadoop集群由多个节点组成,包括一个NameNode和若干个DataNode。NameNode负责管理文件系统的元数据,而DataNode负责存储实际的数据。

Hadoop的运行过程包括以下几个步骤:

  1. 数据准备:将待处理的数据上传到HDFS中,可以使用Flume、Sqoop等工具将数据从其他系统导入到HDFS。
  2. 编写MapReduce程序:使用Java语言编写MapReduce程序,将计算任务划分为Map阶段和Reduce阶段。
  3. 提交任务:将编写好的MapReduce程序提交到Yarn中,Yarn负责资源的分配和管理。
  4. 任务执行:Yarn将MapReduce任务分解为多个小任务,并在集群中的不同节点上并行执行。在Map阶段,数据被划分为若干个小块,并在不同节点上进行处理;在Reduce阶段,Map阶段的输出被收集和汇总,以生成最终的结果。
  5. 结果输出:处理完成后,结果将输出到HDFS中,可以使用Hive、HBase等工具进行结果查询和分析。

在运行过程中,Hadoop涉及到了多个技术栈,包括:

  1. HDFS:Hadoop分布式文件系统,用于存储大规模数据。
  2. MapReduce:Hadoop的核心计算模型,用于处理大规模数据集。
  3. Yarn:Hadoop的资源管理器,用于管理和分配集群中的计算资源。
  4. Hive:基于Hadoop的数据仓库工具,提供了类似于SQL的查询语言。
  5. HBase:基于Hadoop的分布式数据库,用于存储非结构化和半结构化数据。
  6. Flume:Hadoop的数据采集工具,用于将数据从不同的数据源导入到HDFS中。
  7. Sqoop:Hadoop的数据导入导出工具,用于在关系型数据库和Hadoop之间进行数据迁移。

Hdfs存储:

HDFS中每个数据节点可以存储的数据量取决于节点的硬盘大小。对于单个节点,其存储容量为磁盘容量减去配置文件(hdfs-site.xml)中的参数值dfs.datanode.du.reserved。对于一个集群,其总容量取决于所有DataNode节点的硬盘大小之和。但是需要注意的是,还需要考虑集群的备份数量。例如,如果备份数量为3,集群总容量为3TB,则实际可以存储的文件容量为1TB。

大数据技术栈非常多,但是并不需要全部都懂,了解即可,我也是刚刚开始学习不久,欢迎大家的批评指正。之后会持续更新大数据了!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/98516.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Nginx支持SNI证书,已经ssl_server_name的使用

整理了一些网上的资料,这里记录一下,供大家参考 什么是SNI? 传统的应用场景中,一台服务器对应一个IP地址,一个域名,使用一张包含了域名信息的证书。随着云计算技术的普及,在云中的虚拟机有了一…

怎么压缩图片?图片压缩技巧快学来

在数字时代,我们常常需要处理各种类型的文件,包括图片,然而,图片文件往往占用大量空间,尤其是在传输和存储时,为了解决这个问题,我们可以使用图片压缩工具来减小图片的体积,提高传输…

面试算法22:链表中环的入口节点(1)

题目 如果一个链表中包含环,那么应该如何找出环的入口节点?从链表的头节点开始顺着next指针方向进入环的第1个节点为环的入口节点。 例如,在如图4.3所示的链表中,环的入口节点是节点3。 分析 第1步:确认是否包含环…

ES系列十二、ES的scroll Api及分页实例

1.官方api 1.Scroll概念 Version:6.1 英文原文地址:Scroll 当一个搜索请求返回单页结果时,可以使用 scroll API 检索体积大量(甚至全部)结果,这和在传统数据库中使用游标的方式非常相似。 不要把 scroll 用…

无法向会话状态服务器发出会话状态请求。请确保 ASP.NET State Service (ASP.NET 状态服务)已启动,并且客户端端口与服务器端口相同

“/”应用程序中的服务器错误。 无法向会话状态服务器发出会话状态请求。请确保 ASP.NET State Service (ASP.NET 状态服务)已启动,并且客户端端口与服务器端口相同。如果服务器位于远程计算机上,请检查 HKEY_LOCAL_MACHINE\SYSTEM\CurrentControlSet\Se…

【算法设计与分析】— —实现活动安排问题的贪心算法。

🎃欢迎大家前去观看我的算法设计与分析专栏: 算法设计与分析_IT闫的博客-CSDN博客 希望对大家有所帮助! 🎃个人专栏: 🐬 算法设计与分析:算法设计与分析_IT闫的博客-CSDN博客 🐳Java…

RFID系统简介:优点、应用与发展前景

一、介绍RFID系统 RFID系统全称是Radio Frequency Identification,是一种通过电磁场自动识别标记(Tag或RFID标签)并读取相关数据的技术。与条形码技术相比,RFID系统最大的特点就是可以自动识别、无须接触扫描,并且可以…

简单对比一下 C 与 Go 两种语言

使用一个简单的计数程序将古老的 C 语言与现代 Go 进行比较。 Go 是一种现代编程语言,追溯其历史大部分源自编程语言 C。所以,任何熟悉 C 语言的开发者都可能会觉得 Go 很熟悉。C 程序员使用 Go 编写新程序变得容易,同时避免了 C 编程语言的…

QML 带框最大化显示方法

1.QML窗口最大化很多会给出如下方法: visibility: "FullScreen" 此方法不好的方面是没有最大化,最小化,关闭按钮 2.通过showMaximized() 方法可以满足我们需求:在onCompleted 方法中执行 实现的效果如下:

QT基础入门——界面布局和常用控件(四)

前言: 所谓 GUI 界面,归根结底,就是一堆组件的叠加。我们创建一个窗口,把按钮放上面,把图标放上面,这样就成了一个界面。在放置时,组件的位置尤其重要。我们必须要指定组件放在哪里&#xff0c…

改变世界-生成式人工智能

麦肯锡在其《生成人工智能的经济潜力:下一个生产力前沿》中声称,“ChatGPT、GitHub Copilot、Stable Diffusion 等生成式人工智能应用程序以 AlphaGo 没有的方式吸引了世界各地人们的想象力,这要归功于它们广泛的实用性——几乎任何人都可以使…

动态代理初步了解

准备案例 需求 模拟某企业用户管理业务,需包含用户登录,用户删除,用户查询功能,并要统计每个功能的耗时。 分析与实现 定义一个UserService表示用户业务接口,规定必须完成用户登录,用户删除&#xff0c…

2019年[海淀区赛 第2题] 阶乘

题目描述 n的阶乘定义为n!n*(n -1)* (n - 2)* ...* 1。n的双阶乘定义为n!!n*(n -2)* (n -4)* ...* 2或n!!n(n - 2)*(n - 4)* ...* 1取决于n的奇偶性,但是阶乘的增长速度太快了,所以我们现在只想知道n!和n!!末尾的的个数 输入格式 一个正整数n &#xff…

华为OD七日集训第7期 - 按算法分类,由易到难,循序渐进,玩转OD

目录 一、适合人群二、本期训练时间三、如何参加四、7日集训第7期五、精心挑选21道高频100分经典题目,作为入门。第1天、逻辑分析第2天、字符串处理第3天、数据结构第4天、递归回溯第5天、二分查找第6天、深度优先搜索dfs算法第7天、动态规划 六、集训总结 大家好&a…

基于Stable Diffusion的图像合成数据集

当前从文本输入生成合成图像的模型不仅能够生成非常逼真的照片,而且还能够处理大量不同的对象。 在论文“评估使用稳定扩散生成的合成图像数据集”中,我们使用“稳定扩散”模型来研究哪些对象和类型表现得如此逼真,以便后续图像分类正确地分配…

【C++】Stack Queue -- 详解

一、stack的介绍和使用 1、stack的介绍 https://cplusplus.com/reference/stack/stack/?kwstack 1. stack 是一种容器适配器,专门用在具有后进先出操作的上下文环境中,其删除只能从容器的一端进行元素的插入与提取操作。 2. stack 是作为容器适配器被…

Docker Mysql实战:docker compose 搭建Mysql

1、docker-compose-mysql文件准备 进入/home/docker目录,新建docker-compose-mysql.yml文件,内容如下: version: 3.0 services:mysql:image: "mysql:5.7"container_name: "mysql"environment:MYSQL_ROOT_PASSWORD: &q…

Java中树形菜单的实现方式(超全详解!)

前言 这篇文中,我一共会用两种方式来实现目录树的数据结构,两种写法逻辑是一样的,只是一种适合新手理解,一种看着简单明了但是对于小白不是很好理解。在这里我会很详细的讲解每一步代码,主要是方便新人看懂&#xff0…

从0开始python学习-31.selenium 文本输入框、下拉选择框、文件上传、时间插件选择元素定位

目录 1. 纯文本输入框 2. 存在默认值的文本输入 3. 下拉选择框 4. 输入后下拉选择框 5. 文件上传 6. 时间插件 1. 纯文本输入框 driver.find_element(By.XPATH,/html/body/div[2]/td[2]/input).send_keys(测试名称) 2. 存在默认值的文本输入 注意: 1. 这种存…

AQS内部的体系架构

AQS本质上是一个双向队列,加一个状态位state。内部靠Node节点形成队列。 AQS由state和CLH变体的虚拟双端队列组成。 AQS的内部类Node类 属性说明: 内部结构: