Hadoop学习一(初识大数据)

目录

一 什么是大数据?

二 大数据特征

三 分布式计算

四 Hadoop是什么?

五 Hadoop发展及版本

六 为什么要使用Hadoop

七 Hadoop vs. RDBMS

八 Hadoop生态圈

九 Hadoop架构 


一 什么是大数据?

大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合。

大数据技术要解决的问题:海量数据存储和海量数据计算

 

二 大数据特征

  • 4V特征
    • Volume(大数据量):90% 的数据是过去两年产生
    • Velocity(速度快):数据增长速度快,
    • 时效性高 Variety(多样化):数据种类和来源多样化 结构化数据(如表形式的数据)、半结构化数据(如 json)、非结构化数据(如日志信息)
    • Value(价值密度低):需挖掘获取数据价值
  • 固有特征
    • 时效性
    • 不可变性

三 分布式计算

分布式计算将较大的数据分成小的部分进行处理。

传统分布式计算

新的分布式计算 - Hadoop

计算方式

将数据复制到计算节点

在不同数据节点并行计算

可处理数据量

小数据量

大数据量

CPU性能限制

受CPU限制较大

受单台设备限制小

提升计算能力

提升单台机器计算能力

扩展低成本服务器集群

 

四 Hadoop是什么?

  • Hadoop是一个开源分布式系统架构,解决海量数据存储和海量数据计算的问题
  • 处理海量数据的架构首选
  • 非常快得完成大数据计算任务
  • 已发展成为一个Hadoop生态圈

五 Hadoop发展及版本

  •  Hadoop起源于搜索引擎Apache Nutch
    • 创始人:Doug Cutting
    • 2004年 - 最初版本实施
    • 2008年 - 成为Apache顶级项目
  • Hadoop发行版本
    • 社区版:Apache Hadoop
    • Cloudera发行版:CDH
    • Hortonworks发行版:HDP

六 为什么要使用Hadoop

  • 高扩展性
    • 在集群间分配任务数据,可方便的扩展数以千计的节点
  • 高可靠性
    • Hadoop底层维护多个数据副本
  • 高容错性
    • Hadoop框架能够自动将失败的任务重新分配
  • 低成本
    • Hadoop架构允许部署在廉价的机器上
  • 灵活,可存储任意类型数据
  • 开源,社区活跃

七 Hadoop vs. RDBMS

Hadoop与关系型数据库对比

RDBMS

Hadoop

格式

写数据时要求

读数据时要求

速度

读数据速度快

写数据速度快

数据监管

标准结构化

任意结构数据

数据处理

有限的处理能力

强大的处理能力

数据类型

结构化数据

结构化、半结构化、非结构化

应用场景

交互式OLAP分析

ACID事务处理

企业业务系统

处理非结构化数据

海量数据存储计算

 

八 Hadoop生态圈

 

九 Hadoop架构 

  • HDFS(Hadoop Distributed File System)
    • 分布式文件系统,解决分布式存储
  • MapReduce
    • 分布式计算框架
  • YARN
    • 分布式资源管理系统 在Hadoop 2.x中引入
  • Common
    • 支持所有其他模块的公共工具程序

     

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/55443.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vscode 配置

vscode 配置 安装插件 Better C SyntaxC/CCMake、CMake Tools 、CMake Language SupportDoxygen Documentation GeneratorGit Graphhighlight-wordsPythonvscode-iconsClang-Format和clangdtyporahex editor .vscode 中的文件 在 VS Code 中,.vscode​ 文件夹是用于…

vue3 基础知识 (生命周期) 06

你好! 文章目录 一、生命周期二、生命周期过程三、组件的 v-model 一、生命周期 每个组件都可能从 创建、挂载、更新、卸载 等一系列的过程 在这个过程中的某一个阶段,用于可能会想要 添加一些属于自己的代码逻辑(比如组件创建完成后请求一些…

各种中间件的默认端口

面试时会忘记个别中间件端口 docker:2375 nacos:8848 redis:6379 rabbitMq: 5672(后台配置的端口)15672(web管理界面)账号:guest15674(web STOMP插件):通过WebSocket…

SpringBoot案例-配置文件-yml配置文件

配置格式 SpringBoot提供了多种属性配置方式 application.propertiesapplication.ymlapplication.yaml常见配置文件格式对比 XML&#xff08;臃肿&#xff09; <configuration><database><host>localhost</host><port>3306</port><use…

【springboot】WebScoket双向通信:

文章目录 一、介绍&#xff1a;二、案例&#xff1a;三、使用&#xff1a;【1】导入WebSocket的maven坐标【2】导入WebSocket服务端组件WebSocketServer&#xff0c;用于和客户端通信【3】导入配置类WebSocketConfiguration&#xff0c;注册WebSocket的服务端组件【4】导入定时…

裂缝检测,只依赖OPENCV,基于YOLO8S

裂缝检测&#xff0c;只依赖OPENCV&#xff0c;YOLOV8S 现在YOLOV8S训练目标非常方便&#xff0c;可以直接转换成ONNX让OPENCV调用&#xff0c;支持C/PYTHON&#xff0c;原理很简单&#xff0c;自己找博客&#xff0c;有兴趣相互交流

VUE3 --->vue-router4 获取路由对象与参数

#记录# 1. 创建路由实例由 createRouter 实现 2. 路由模式 history 模式使用 createWebHistory() hash 模式使用 createWebHashHistory() 地址栏带 # 参数是基础路径&#xff0c;默认/ 路由的基础地址是 vite.config.js中的 base 配置的值&#xff0c; 默认是 /…

Redis使用

环境配置 代码实现 Java public CoursePublish getCoursePublishCache(Long courseId){//查询缓存Object jsonObj redisTemplate.opsForValue().get("course:" courseId);if(jsonObj!null){String jsonString jsonObj.toString();System.out.println("从缓…

Redis之stream类型解读

目录 基本介绍 数据结构 消息 消费组 消费者 基本使用命令 概述 xadd 命令 xtrim 命令 xdel 命令 xlen 命令 xrange 命令 xread 命令 xgroup 命令 xreadgroup 命令 xack 命令 基本介绍 Redis stream&#xff08;流&#xff09;是一种数据结构&#xff0c;其…

基于React实现无限滚动的日历详细教程,附源码【手写日历教程第二篇】

前言 最常见的日历大部分都是滚动去加载更多的月份&#xff0c;而不是让用户手动点击按钮切换日历月份。滚动加载的交互方式对于用户而言是更加丝滑和舒适的&#xff0c;没有明显的操作割裂感。 那么现在需要做一个这样的无限滚动的日历&#xff0c;前端开发者应该如何去思考…

maven下载不了仓库地址为https的依赖jar,配置参数忽略ssl安全检查

问题原因 私服使用的https地址&#xff0c;然后安全证书过期的或没有&#xff0c;使用maven命令时&#xff0c;可以添加以下参数&#xff0c;忽略安全检查 mvn -Dmaven.wagon.http.ssl.insecuretrue -Dmaven.wagon.http.ssl.allowalltrue -Dmaven.wagon.http.ssl.ignore.vali…

前端面试:【网络协议与性能优化】HTTP/HTTPS、TCP/IP和WebSocket

嗨&#xff0c;亲爱的Web开发者&#xff01;在构建现代Web应用时&#xff0c;了解网络协议是优化性能和确保安全性的关键。本文将深入探讨HTTP/HTTPS、TCP/IP和WebSocket这三个网络协议&#xff0c;帮助你理解它们的作用以及如何优化Web应用的性能。 1. HTTP/HTTPS协议&#xf…

慕课网 Go工程师 第三周 package和gomodules章节

Go包的引入&#xff1a; 包名前面加匿名&#xff0c;只引入但不使用&#xff0c;如果对应包有init函数&#xff0c;会执行init函数&#xff08;初始化操作&#xff09; 包名前面加. 把这个包的结构体和方法导入当前包&#xff0c;慎用&#xff0c;你不知道当前包和被引入的包用…

数据库事务四大特性

事务的4大特性&#xff08;ACID&#xff09;&#xff1a; 原子性(Atomicity)&#xff1a; 事务是数据库的逻辑工作单位&#xff0c;它对数据库的修改要么全部执行&#xff0c;要么全部不执行。 一致性(Consistemcy)&#xff1a; 事务前后&#xff0c;数据库的状态都满足所有的完…

Redis内存空间预估与内存优化策略:保障数据安全与性能的架构实践AIGC/AI绘画/chatGPT/SD/MJ

推荐阅读 AI文本 OCR识别最佳实践 AI Gamma一键生成PPT工具直达链接 玩转cloud Studio 在线编码神器 玩转 GPU AI绘画、AI讲话、翻译,GPU点亮AI想象空间 资源分享 「java、python面试题」来自UC网盘app分享&#xff0c;打开手机app&#xff0c;额外获得1T空间 https://dr…

基于YOLOV8模型的课堂场景下人脸目标检测系统(PyTorch+Pyside6+YOLOv8模型)

摘要&#xff1a;基于YOLOV8模型的课堂场景下人脸目标检测系统可用于日常生活中检测与定位课堂场景下人脸&#xff0c;利用深度学习算法可实现图片、视频、摄像头等方式的目标检测&#xff0c;另外本系统还支持图片、视频等格式的结果可视化与结果导出。本系统采用YOLOv8目标检…

PHP自己的框架cookie()使用(完善篇七)

1、PHP自己的框架cookie() 2、cookie类&#xff08;CookieBase.php&#xff09; <?php class CookieBase {/*** 设置cookie*/public static function set($name, $value, $expire 3600, $path , $domain , $secure false, $httponly false) {setcookie($name, $valu…

dart 学习列表 List

List 列表 在 Dart 编程语言中&#xff0c;List 是一种有序的集合数据类型&#xff0c;用于存储一系列项目。它允许您在单个变量中存储多个项目&#xff0c;并提供了许多操作来管理列表中的数据。以下是关于 Dart 中的 List 的一些重要信息&#xff1a; 创建 List&#xff1a; …

字节律动之*你太美, emm 其实是个字符画雪花视频-哈哈哈-将视频转成一张张字符画图片

效果 整体效果 局部图片放大效果 视频转换后带雪花特效,凑合看吧, 视频地址 准备工作 安装FFmpeg 电脑上安装ffpeg处理视频并设置环境变量, windows可以参考FFmpeg的安装教程这篇博客安装 mac可以直接执行brew install ffmpeg安装 安装python依赖包 执行pip3 install -…

2023前端面试笔记 —— CSS3

系列文章目录 内容链接2023前端面试笔记HTML52023前端面试笔记CSS3 文章目录 系列文章目录前言一、CSS选择器的优先级二、通过 CSS 的哪些方式可以实现隐藏页面上的元素三、px、em、rem之间有什么区别&#xff1f;四、让元素水平居中的方法有哪些五、在 CSS 中有哪些定位方式六…