【Hadoop】HDFS简介——是什么/优缺点/适用场景

  • HDFS是什么
  • HDFS的优点/特性
  • HDFS适用场景
  • HDFS的缺点与不足
  • HDFS 不适用场景

HDFS是什么

  • 源自Google的GFS论文
    • Google于2003年10月发表
    • HDFS是GFS的一个克隆版
  • HDFS(Hadoop Distributed File System)
    • 是易于扩展的分布式文件系统。易扩展意味着如果文件系统大小不够可以增加节点
    • 运行在大量的普通低成本机器上,提供容错机制。也就是说机器成本较低
    • 为用户提供性能极好的文件存储服务

HDFS的优点/特性

  • 高容错性:数据自动保存多个副本,副本丢失自动恢复。比如正在使用的机器down掉后,可以及时地转移在其他备用机器上再进行
  • 适合批量处理
  • 移动计算而非数据:将数据位置暴露给计算框架。这是一个重要的概念。也就是说计算的时候并不是将集群的数据都传输到一台机器上进行计算,因为移动数据会耗费大量的IO(磁盘IO、网络IO等等),而是在集群中的每个机器上分别计算,然后再将结果进行汇总。
  • 适合大数据处理:TB,PB级的数据,百万规模以上的文件数量,10K+节点流式文件访问
  • 一次写入,可多次读取,确保数据的一致性。即文件被写入完成后通过设置使其进入只读状态。 在该状态下保护期内文件只能被读取,无法删除、修改或重命名。 通过采用WORM技术对存储数据进行保护后,可以防止其因意外而修改,这就保证了企业或组织对一些重要的业务数据安全存储的需求
  • 可构建在廉价机器上:通过多副本提高可靠性,有容错和恢复机制

HDFS适用场景

根据HDFS的优点/特性/特点来考虑:

  • 存储并管理 PB 级数据;

  • 适合处理非结构化数据;

  • 注重数据处理的吞吐量;

  • 应用模式为:write-once-read-many 存取模式。即文件被写入完成后通过设置使其进入只读状态。 在该状态下保护期内文件只能被读取,无法删除、修改或重命名。 通过采用WORM技术对存储数据进行保护后,可以防止其因意外而修改,这就保证了企业或组织对一些重要的业务数据安全存储的需求

典型应用例如:网站用户行为分析,生态系统数据分析,气象数据分析,日志分析等等。


HDFS的缺点与不足

  • 不适合低延迟数据访问:比如毫秒级的访问要求。需要进行低延迟与高吞吐率的权衡
  • 不适合小文件存取
    • 占用NameNode大量内存
    • 寻道时间超过读取时间
  • 不适合并发写入、文件随机修改。一个文件只能有一个Writer仅支持append写入

HDFS 不适用场景

根据HDFS的缺点和不足来考虑:

  • 低时间延迟数据访问的应用,例如几十毫秒范围。

    原因:HDFS 是为高数据吞吐量应用优化的,这样是以高时间延迟为代价。

  • 大量小文件。

    原因 : NameNode 将文件系统的元数据存储在内存中,因此文件系统所能存储的文件总数。受限于 NameNode 内存容量。如果每个文件目的录和数据块的存储信息大约占 150 字节,那么对于一百万个文件,假设每个文件仅占用一个数据块,则就至少需要 300MB 的内存,假设需要存储十亿个文件,这时需要的内存量将是非常巨大的。

  • 多用户写入,任意修改文件:现在 hdfs 文件可能只有一个 writer,而且写操作总是写在文件的末尾

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/227684.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ElasticSearch之Node query cache settings

对于filter查询,ElasticSearch提供了缓存查询结果的特性,当缓存中存在满足查询条件要求的数据时,直接从缓存中提取查询结果。 对于ElasticSearch节点,该节点上的所有shard共享同一个缓存区域。 ElasticSearch基于LRU算法来管理缓存…

基于BWA,Bowtie2,samtools、checkm等工具计算宏基因组学序列分析中Contigs与Genes在样品中的丰度,多种计算方式和脚本对比

计算contigs和genes相对丰度可以提供有关微生物群落结构和功能的信息。以下是计算这两个指标的意义: 1. Contigs的相对丰度:contigs是利用基因组测序技术获得的碎片序列,通过计算contigs的相对丰度可以了解微生物群落中不同菌种的相对丰度。…

使用Audition录制电脑内部声音

在电脑上播放的媒体文件,包括视频和声音,很多是可以播放却无法保存的。例如一些网页播放的视频,或者在线播放的音乐。 视频的话,可以使用工具来截图,抓取GIF或录屏。 声音的话,也可以使用工具进行录制。这里…

Oracle EBS PAC“定期成本分配处理程序”报错:30004不存在为成本类型、成本组和法人主体定义的帐户

Oracle EBS版本: RDBMS : 12.1.0.2.0 Oracle Applications : 12.2.6 问题症状: 中文环境: 30004不存在为成本类型、成本组和法人主体定义的帐户。 CSTPALPC.dyn_proc_call : Error Calling Package 30004不存在为成本类型、成本组和法人主…

外部函数接口FFI

在某些场景下,你的RUST代码可能需要与另外一种语言编写的代码进行交互。RUST为此提供了extern关键字来简化创建和使用外部函数接口(Foreign Function Interface,FFI)。FFI是编程语言定义函数的一种方式,它允许其它编程…

MATLAB算法实战应用案例精讲-【图像处理】缺陷检测(补充篇)

目录 前言 疵点缺陷识别 1边缘增强 1.1经典算子 1.2坯布疵点边缘检测

c++ websocket 协议分析与实现

前言 网上有很多第三方库,nopoll,uwebsockets,libwebsockets,都喜欢回调或太复杂,个人只需要在后端用,所以手动写个; 1:环境 ubuntu18 g(支持c11即可) 第三方库:jsoncpp,openssl 2:安装 jsoncpp 读取json 配置文件 用 自动安装 网…

最新50万字312道Java经典面试题52道场景题总结(附答案PDF)

最近有很多粉丝问我,有什么方法能够快速提升自己,通过阿里、腾讯、字节跳动、京东等互联网大厂的面试,我觉得短时间提升自己最快的手段就是背面试题;花了3个月的时间将市面上所有的面试题整理总结成了一份50万字的300道Java高频面…

国际教育-S1试讲讲稿

习题题目 答案 用到的概念: 概率之和等于1 E ( x ) ∑ i 1 4 x i P i E(x)\sum_{i1}^4x_iP_i E(x)∑i14​xi​Pi​ E ( x 2 ) ∑ i 1 4 x i 2 P i E(x^2)\sum_{i1}^4x_i^2P_i E(x2)∑i14​xi2​Pi​ V a r ( X ) Var(X) Var(X) ∑ i 1 4 ( x i − x ‾ ) 2…

【机器学习】5分钟掌握机器学习算法线上部署方法

5分钟掌握机器学习算法线上部署方法 1. 三种情况2. 如何转换PMML,并封装PMML2.1 什么是PMML2.2 PMML的使用方法范例3. 各个算法工具的工程实践4. 只用Linux的Shell来调度模型的实现方法5. 注意事项参考资料本文介绍业务模型的上线流程。首先在训练模型的工具上,一般三个模型训…

自定义时间选择器

自定义时间选择器 文章目录 自定义时间选择器第一章 效果演示第01节 效果图第02节 主要文件 第二章 案例代码第01节 核心文件 WheelPicker第02节 实体类 WheelBean第03节 接口类 IWheelPicker第04节 原子时间类 DateTimePickerView第05节 原子时间类 PickerYear第06节 原子时间…

nginx的location与rewrite

目录 一.location 二.rewrite rewrite跳转实现: 语法格式:rewrite [flag]; flag标记说明: 三.基于域名跳转 四.基于ip跳转 五.基于旧域名跳转到新域名后面加目录 六.基于参数匹配的跳转 可以同过全局变量来匹配: 基于目…

linux常见错误

1.E45: ‘readonly‘ option is set (add ! to override) 首先使用以下命令从Vim编辑器中出来::qa!(强制退出) 接下来,使用sudo vim filename和更高版本::wq 2.Bash script – "/bin/bash^M: bad interpreter: No such file or direc…

鸿蒙4.0开发 - DevEco Studio如何使用Previewer窗口预览器报错

DevEco Studio预览器概况在HarmonyOS应用开发过程中,通过使用预览器,可以查看应用的UI效果,方便开发者实时查看应用的运行效果,随时调整代码。 1.正常启动 打开预览器的位置在DevEco Studio编辑界面的右上角部分,竖排…

Linux 高级管理,安装MySQL数据库

1.准备工作 (1)为了避免发生端口冲突,程序冲突等现象,建议先查询MySQL软件的安装情况,确认没有 使用以RPM方式安装的mysql-server、mysql软件包,否则建议将其卸载。 [rootnode01 ~]# rpm -q mysql-server…

C_15练习题答案

一、单项选择题(本大题共20小题,每小题2分,共40分。在每小题给出的四个备选项中,选出一个正确的答案,并将所选项前的字母填写在答题纸的相应位置上。) 在下列说法中,(D)是正确的。A.C程序从第一个函数开始执行,直到最后一个函数结束 B.C程序从第一个函数开始执行,直到主…

FastAdmin后台安装出现2054错误的解决办法

用Navicat修改密码验证方式。MySQL Workbench的Server菜单中的Users and Privileges菜单中似乎不支持此项修改。 修改完毕以后也许会报错: Access denied for user ‘root‘‘localhost‘ (using password: YES) 用以下命令无密进入mysql。 C:\Program Files\MySQ…

小米路由器4A千兆版如何刷OpenWRT并使用固定地址远程访问

文章目录 前言1. 安装Python和需要的库2. 使用 OpenWRTInvasion 破解路由器3. 备份当前分区并刷入新的Breed4. 安装cpolar内网穿透4.1 注册账号4.2 下载cpolar客户端4.3 登录cpolar web ui管理界面4.4 创建公网地址 5. 固定公网地址访问 前言 OpenWRT是一个高度模块化、高度自…

Ps:形状工具 - 描边选项

在形状工具的工具选项栏或“属性”面板中,单击“设置形状描边类型” Set shape stroke type菜单图标可打开“描边选项” Stroke Options面板。 描边预设 Stroke Type 默认列出了实线、虚线和点线三种类型的描边,单击可应用。 自己创建并存储的描边类型&a…

CTF竞赛密码学题目解析

CTF(Capture The Flag)竞赛是一个有趣的挑战。密码学是CTF竞赛中的核心元素之一,通常涉及解密、破译密码、理解加密算法等技能。以下是30个题目及答案,新入行的可以看看鸭。 题目及答案 1. Caesar Cipher 描述:给出一…