大数据,Hadoop,HDFS的简单介绍

大数据

海量数据,具有高增长率、数据类型多样化、一定时间内无法使用常规软件工具进行捕捉、管理和处理的数据集

大数据的特征: 4V

Volume : 巨大的数据量
Variety : 数据类型多样化
结构化的数据 : 即具有固定格式和有限长度的数据
半结构化的数据 : 是一些 xml 或者 html 格式的数据
非结构化的数据 : 现在非结构化的数据越来越多,就是不定长、无固定格式的数据,例如网
页、语音、视频等
Velocity : 数据增长速度快, [vəˈlɒsəti]
Value : 价值密度低,商业价值高

大数据的处理:  

数据采集,数据存储,数据清洗,数据分析,数据可视化。
核心就是 " 数据价值化 "

应用场景

存储和读取效率

分布式存储:  将一个数据集存储到多个硬盘里, 然后并行读取
比如 1T 的数据,我们平均 100 份存储到 100 1TB 硬盘上,同时读取,那么读取完整个数
据集的时间用不上两分钟。至于硬盘剩下的 99% 的容量,我们可以用来存储其他的数据集,这样就不会 产生浪费。解决读取效率问题的同时,我们也解决了大数据的存储问题。
存储大数据集----->>硬盘不够大、数据存储单份的安全隐患----->>分布式文件系统
快速分析大数据集----->>基于分布式文件系统的计算分析的编程框架模型
传统型关系数据库不适合存储非结构化数据------>>BigTable(适合存储结构化和半结构化数据)

Hadoop

Hadoop Apache 基金会旗下 一个开源的分布式存储和分析计算平台 ,使用 java 语言开发,具有很好的跨平台性,可以运行在商用( 廉价 ) 硬件上,用户无需了解分布式底层细节,就可以开发分布式程序,充分使用集群的高速计算和存储
组成部分
面试必问
生态系统
Hadoop不仅仅是一个单一的软件,它是一个生态系统,意味着它包含了一系列的相关工具和框架,这些工具和框架可以相互配合使用,以支持不同类型的数据处理任务。
安装
CDH
使用CDH会简化Hadoop的安装,(Cloudera's Distribution Including Apache Hadoop)是由Cloudera公司提供的一种基于Apache Hadoop的大数据平台解决方案。它是一个企业级的发行版,旨在简化和优化Hadoop的部署、管理和使用.
CM  集群管理平台
(Cloudera Manager) 是一个功能全面的集群管理工具,它通过提供自动化的部署、配置、监控和管理功能,极大地简化了 Hadoop 集群的运维工作
HUE  开发平台
全称为Hadoop User Experience,是一个开源的Apache Hadoop UI系统,它为用户提供了一个在浏览器端与Hadoop集群进行交互的Web控制台.它提供了一个功能强大的SQL编辑器,用户可以编写、执行和调试SQL查询,支持自动完成、语法高亮和查询结果可视化。此外,Hue还内置了HDFS文件浏览器,用户可以方便地浏览、上传、下载和管理HDFS文件
Hue主要用于数据分析和处理,而Cloudera Manager则主要用于集群的管理和运维。

HDFS的结构图

HDFS的优点

1. 高容错性(硬件故障是常态):数据自动保存多个副本,副本丢失后,会自动恢复

2. 适合大数据集:GB、TB、甚至PB级数据、千万规模以上的文件数量,1000以上节点规模(一台服务器/电脑是一个节点)

3. 构建成本低:Hadoop开源,并且可以构建在廉价机器上。

4. 多种软硬件平台中的可移植性

5. 高效性:Hadoop能够在节点之间动态地移动数据,并保证各个节点的动态平衡,因此处理速度非常快。

HDFS的缺点

1. 不适合做低延迟数据访问(无法实时):

HDFS适合处理大型数据集,高吞吐率。这一点以高延迟为代价的。因此HDFS不

适合处理用户要求的毫秒级的低延迟应用请求

2. 不适合小文件存取:

一是需要消耗大量的寻址时间,

第二, 无论块中文件大小, 文件的元数据所占的内存是相同的, 因此相对来说,大文件更省内存。如果文件太小,很可能导致元数据比文件本身还要大.

解决: 把多个小文件合并成大文件

3. 不适合并发写入,文件随机修改:

HDFS上的文件只能拥有一个写者,仅仅支持append操作。不支持多用户对同一个文件的写操作,以及在文件任意位置进行修改

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/893339.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

深度强化学习:PPO

深度强化学习算法:PPO 1. Importance Sampling 先说一下什么是采样:对于一个随机变量,我们通常用概率密度函数来描述该变量的概率分布特性。具体来说,给定随机变量的一个取值,可以根据概率密度函数来计算该值对应的概…

Flink底层架构与运行流程

这张图展示了Flink程序的架构和运行流程。 主要组件及功能: Flink Program(Flink程序): 包含Program code(程序代码),这是用户编写的业务逻辑代码。经过Optimizer / Graph Builder&#xff08…

嵌入式知识点总结 C/C++ 专题提升(一)-关键字

针对于嵌入式软件杂乱的知识点总结起来,提供给读者学习复习对下述内容的强化。 目录 1.C语言宏中"#“和"##"的用法 1.1.(#)字符串化操作符 1.2.(##)符号连接操作符 2.关键字volatile有什么含意?并举出三个不同的例子? 2.1.并行设备的硬件寄存…

mysql精简单机版,免登录,可复制,不启动服务与本机mysql无冲突

突然有了个需要在本地使用的mysql需求,要求不用安装,随拷随用,不影响其他mysql服务,占用空间小.基于这种需求做了个精简版的mysql 首先下载mysql的zip安装包 > windows 64位 > https://repo.huaweicloud.com/mysql/Downloads/MySQL-5.7/mysql-5.7.36-winx64…

俄语画外音的特点

随着全球媒体消费的增加,语音服务呈指数级增长。作为视听翻译和本地化的一个关键方面,画外音在确保来自不同语言和文化背景的观众能够以一种真实和可访问的方式参与内容方面发挥着重要作用。说到俄语,画外音有其独特的特点、挑战和复杂性&…

【vitePress】基于github快速添加评论功能(giscus)

一.添加评论插件 使用giscus来做vitepress 的评论模块,使用也非常的简单,具体可以参考:giscus 文档,首先安装giscus npm i giscus/vue 二.giscus操作 打开giscus 文档,如下图所示,填入你的 github 用户…

python麻辣香锅菜品推荐

1.推荐算法概述 推荐算法出现得很早,最早的推荐系统是卡耐基梅隆大学推出的Web Watcher浏览器导航系统,可以根据当的搜索目标和用户信息,突出显示对用户有用的超链接。斯坦福大学则推出了个性化推荐系统LIRA.AT&T实验室于1997年提出基于协作过滤的个性化推荐系统…

Android系统开发(六):从Linux到Android:模块化开发,GKI内核的硬核科普

引言: 今天我们聊聊Android生态中最“硬核”的话题:通用内核镜像(GKI)与内核模块接口(KMI)。这是内核碎片化终结者的秘密武器,解决了内核和供应商模块之间无尽的兼容性问题。为什么重要&#x…

UE 像素流Pixel Streaming笔记

参考 UE 像素流Pixel Streaming基本介绍和使用方法 UE4-PixelStreaming(虚幻引擎4-像素流)笔记 UE 像素流常用回调 UE 像素流通信 这链接能学到不少像素流的东西 使用 1.像素流连接成功(On New Connection) 必须使用GetPixe…

Java 资源管理教程:掌握 close 方法、Cleaner 类与 Runtime.addShutdownHook

在 Java 编程中,高效地管理资源是至关重要的,特别是当你处理文件、数据库连接、网络连接等有限资源时。为了确保这些资源得到正确释放,Java 提供了多种机制。本教程将深入探讨 close 方法、Cleaner类以及 Runtime.addShutdownHook 方法&#…

ASP.NET Blazor部署方式有哪些?

今天我们来说说Blazor的三种部署方式,如果大家还不了解Blazor,那么我先简单介绍下Blazor Blazor 是一种 .NET 前端 Web 框架,在单个编程模型中同时支持服务器端呈现和客户端交互性: ● 使用 C# 创建丰富的交互式 UI。 ● 共享使用…

微信小程序使用上拉加载onReachBottom。页面拖不动。一直无法触发上拉的事件。

1,可能是原因是你使用了scroll-view的标签,用onReachBottom触发加载事件。这两个是有冲突的。没办法一起使用。如果页面的样式是滚动的是无法去触发页面的onReachBottom的函数的。因此,你使用overflow:auto.来使用页面的某些元素滚动&#xf…

学习ASP.NET Core的身份认证(基于JwtBearer的身份认证9)

测试数据库中只有之前记录温湿度及烟雾值的表中数据较多,在该数据库中增加AppUser表,用于登录用户身份查询,数据库表如下所示:   项目中安装SqlSugarCore包,然后修改控制器类的登录函数及分页查询数据函数&#xff…

【人工智能】:搭建本地AI服务——Ollama、LobeChat和Go语言的全方位实践指南

前言 随着自然语言处理(NLP)技术的快速发展,越来越多的企业和个人开发者寻求在本地环境中运行大型语言模型(LLM),以确保数据隐私和提高响应速度。Ollama 作为一个强大的本地运行框架,支持多种先…

Flutter:carousel_slider 横向轮播图、垂直轮播公告栏实现

安装依赖 carousel_slider: ^5.0.01、垂直滚动公告栏 import package:carousel_slider/carousel_options.dart;// 垂直滚动公告栏Widget _buildNotice() {return <Widget>[<Widget>[TDImage(assetUrl: "assets/img/home11.png",width: 60.w,height: 60.w…

图像去雾数据集的下载和预处理操作

前言 目前&#xff0c;因为要做对比实验&#xff0c;收集了一下去雾数据集&#xff0c;并且建立了一个数据集的预处理工程。 这是以前我写的一个小仓库&#xff0c;我决定还是把它用起来&#xff0c;下面将展示下载的路径和数据处理的方法。 下面的代码均可以在此找到。Auo…

C++ 面向对象(继承)

三、继承 3.1 继承的概念 基于一个已有的类 去重新定义一个新的类&#xff0c;这种方式我们叫做继承 关于继承的称呼 一个类B 继承来自 类 A 我们一般称呼 A类&#xff1a;父类 基类 B类: 子类 派生类 B继承自A A 派生了B 示例图的语法 class vehicle // 车类 {}class …

若依报错:无法访问com.ruoyi.common.annotation

无法访问com.ruoyi.common.annotation 若依的父工程的pom文件中设置了jdk为1.8&#xff0c;将idea的jdk也改为1.8即可。

< OS 有关 > 阿里云:轻量应用服务器 的使用 安装 Tailscale 后DNS 出错, 修复并替换 apt 数据源

VPS 配置 主机&#xff1a;vCPU x2, 512MB, 20GB位置&#xff1a;阿里云&#xff0c;日本.东京OS&#xff1a; ubuntu24.20 原因&#xff1a; 这篇是操作过程的记录文章。 2 个月前&#xff0c; 在阿里云买了台 vps 。当时本想放到韩国&#xff0c;因为它离北京近。 但最便…

小企业品牌塑造之困-中小企实战运营和营销工作室博客

小企业品牌塑造之困-中小企实战运营和营销工作室博客 在商业的广袤天地中&#xff0c;小企业如点点繁星&#xff0c;怀揣着成长为璀璨星辰的梦想。品牌塑造&#xff0c;无疑是它们迈向成功的关键路径。然而&#xff0c;现实却布满荆棘&#xff0c;众多小企业在品牌塑造的征程中…