大数据与Hadoop入门理论

一、大数据的3种数据类型

在这里插入图片描述

1、结构化数据

可定义,有类型、格式、结构的强制约束
如:RDBMS(关系型数据库管理系统)
在这里插入图片描述

2、非结构化数据

没有规律没有数据约束可言,很复杂难以解析
如:文本文件,视频,音频,PDF文件,各种类型文件,图片,邮件等
在这里插入图片描述

3、半结构化数据

一定的格式约束但是不多
如: csv,xml,json,html文件,拥有开标签闭标签规定但是中间内容不确定
在这里插入图片描述

二、大数据4V特征

在这里插入图片描述

1、Volume 大量性

数据量大,包括采集、存储和计算的量都非常大。

2、Velocity高速性

数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。

3、Variety 多样性

种类和来源多样化。包括结构化、半结构化和非结构化数据,具体表现为网络日志、音频、视频、图片、地理位置信息等等,多类型的数据对数据的处理能力提出了更高的要求。

4、Veracity 真实性、精准性

数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器算法来挖掘数据价值,是大数据时代最需要解决的问题。数据的准确性和可信赖度,即数据的质量。数据不一定完整,有一定缺陷

在这里插入图片描述

三、什么是Hadoop?

在这里插入图片描述

1、Apache公司用Java开发的一种开源框架
2、可以进行大数据的分布式存储(HDFS)+分布式处理(MapReduce)
3、使用自身电脑资源,进行并行化数据处理,代码处理模式简单

四、Hadoop内部框架

在这里插入图片描述

1、Hadoop Common

Hadoop的通用类,Hadoop是基于Java开发的,所以需要一些Java的库和实体类的支持

2、HDFS

HDFS 全称为Hadoop Distribute File System,中文名为Hadoop分布式文件系统, 用于文件的存储

3、MapReduce

MapReduce是分布式处理框架,分为Map和Reduce两部分,用于数据处理

4、YARN

YARN全称为 Yet Another Resource Negotiate,中文名为另一个资源协调者,用于作业管理和资源调度

五、YARN例子讲解

1、作业管理

比如,班级里需要搬凳子搬桌子擦窗子,班长可以安排1-5号同学搬凳子,安排6-10号同学搬桌子,安排11-15号同学擦窗子。这个班长(Yarn),安排不同的人(电脑)做不同的事情(作业)

2、资源调度

1-5号同学搬凳子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,6-10号同学搬桌子,有男有女,男同学力气大所以每人搬10张,女生力气小所以每人搬2张,11-15号同学擦窗子,有男有女,男同学体力好所以每人擦3扇,女生体力差所以每人擦1扇,这个过程就是资源调度,班长(Yarn)安排男生(性能好的电脑,空闲的电脑)多干点,安排女生(性能差点的电脑,繁忙的电脑)少干点。

六、Hadoop Cluster (Hadoop集群)

在这里插入图片描述

1、Hadoop集群的架构为“”“”架构
2、由一台电脑作为主电脑,其他多台电脑作为从电脑相互关联组成
3、主电脑的配置一般比较好性能比较高,从电脑一般是市面上的普通商品电脑,性能普通
4、在Hadoop中后续会将电脑称之为“节点”

七、Hadoop Cluster Detail(Hadoop集群详解)

在这里插入图片描述

1、Hadoop集群的主从架构

主节点叫做NameNode,从节点叫做DataNode

2、从节点用于数据的实际存放

数据存放时会将文件首先进行拆块(split block),不同的块(block)文件会存放在不同的从节点中,Hadoop1.x版本中,块的默认大小为64MB,Hadoop2.xHadoop3.x中,默认块大小为128MB

3、主节点用于记录数据,不用于存放数据

主节点中有一个MetaData文件,叫做元数据文件,也被称为记录数据的数据文件,一般记录分块文件信息,块名字信息,块大小信息,块路径信息,等等。

八、Hadoop 历史

1、Hadoop创始人叫Doug Cutting2006年Hadoop问世
2、Hadoop的图标是他儿子的大象玩具

九、Hadoop 4种安装模式

1、Local runtime mode 单机模式

一般用于测试和debug,无进程

2、Pseudo-distributed operating mode 伪分布模式

一般用于学习,一台机器上有一个主节点一个从节点和其他环境

3、Fully distributed operating mode 全分布模式

多台机器,一台作为主节点,其他作为从节点,完全符合Hadoop集群架构

4、High availability(HA) operating mode 高可用模式

保证Hadoop的一切运行顺利,有两个主节点其中一个是备份

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/98541.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue脚手架项目创建及整理

环境准备 首先安装node,如果项目需要指定node版本 可以按装nvm控制版本 创建vue vue create 项目名选择对应版本 这边我是选的自定义,就是第三个选项,可以提前给我下好 router vuex什么的(空格) 选项如图标注 等待下载所需的…

记录在搭建Jenkins时,所遇到的坑,以及解决方案

项目场景: 记录在搭建Jenkins时,所遇到的坑,以及解决方案.问题描述1 在使用Jenkins构建时,报错如下: cp: cannot stat /project/xx/xxxx/dist/: No such file or directory Build step Execute shell marked build as failure Finished: FAILURE解决方…

接口测试复习Requests PyMysql Dubbo

一。基本概念 接口概念:系统与系统之间 数据交互的通道。 接⼝测试概念:校验 预期结果 与 实际结果 是否⼀致。 特征: 测试⻚⾯测试发现不了的问题。(因为:接⼝测试 绕过前端界⾯。 ) 符合质量控制前移理…

Jupyter notebook怎么设置自动跳转问题

1.点击开始,就可以看到Jupyter,然后点击 2.结果就这样: 3你可以复制地址到浏览器,结果: 但是这么做很麻烦,所以有没有更好的办法呢?当然有下面就开始介绍 1.打开cmd(winr,输入cmd),输入以下命令…

YAMLException : java.nio.charset.MalformedInputException : Input length = 1

场景还原 有小伙伴反应SpringBoot项目启动异常,但是同组其他伙伴的无问题! ERROR org.springframework.boot.SpringApplication - Application run failedorg.yaml.snakeyaml.error.YAMLException: java.nio.charset.MalformedInputException : Inpu…

AMEYA360分析:纳芯微推出超低功耗TMR开关/锁存器 NSM105x系列

纳芯微推出基于隧道磁阻 (TMR) 的超低功耗磁开关/锁存器NSM105x系列,为数字位置检测提供高精度的解决方案,可被广泛应用于工业与消费领域的位置检测。 NSM105x产品系列包含了3个产品型号,即NSM1051(单极开关)、NSM1052(全极开关)、NSM1053(锁…

Linux-ubuntu系统查看显卡型号、显卡信息详解

lspci | grep -i vga #----output------ 01:00.0 VGA compatible controller: NVIDIA Corporation Device 2504 (rev a1) PCI devices

基于生物地理学优化的BP神经网络(分类应用) - 附代码

基于生物地理学优化的BP神经网络(分类应用) - 附代码 文章目录 基于生物地理学优化的BP神经网络(分类应用) - 附代码1.鸢尾花iris数据介绍2.数据集整理3.生物地理学优化BP神经网络3.1 BP神经网络参数设置3.2 生物地理学算法应用 4…

在Linux怎么用vim实现把一个文件里面的文本复制到另一个文件里面

2023年10月9日,周一下午 我昨天遇到了这个问题,但在网上没找到图文并茂的博客,于是我自己摸索出解决办法后,决定写一篇图文并茂的博客。 情景 假设现在我要用vim把file_transfer.cpp的内容复制到file_transfer.hpp里面 第一步 …

javaee SpringMVC文件上传 项目结构

引入依赖 <?xml version"1.0" encoding"UTF-8"?><project xmlns"http://maven.apache.org/POM/4.0.0" xmlns:xsi"http://www.w3.org/2001/XMLSchema-instance"xsi:schemaLocation"http://maven.apache.org/POM/4.0.0…

手机切换ip地址的几种方法详解

在某些情况下&#xff0c;我们可能需要切换手机的IP地址来实现一些特定的需求&#xff0c;如解决某些应用程序的限制、绕过IP封禁等。本文将为大家分享几种切换手机IP地址的方法&#xff0c;让您能够轻松应对各种需求。 一、使用动态服务器 使用动态服务器是一种常见的切换手机…

GitHub基础

1、仓库是什么意思&#xff1f;仓库拥有者是谁&#xff1f; 在软件开发或版本控制系统中&#xff0c;"仓库"&#xff08;Repository&#xff09;是指存储项目代码、配置文件、文档等相关文件的地方。它可以看作是一个中央存储库&#xff0c;用于管理和跟踪项目的各个…

微服务技术栈-Nacos配置管理和Feign远程调用

文章目录 前言一、统一配置管理1.添加配置文件2.微服务拉取配置3.配置共享 三、Feign远程调用总结 前言 在上篇文章中介绍了微服务技术栈中Nacos这个组件的概念&#xff0c;Nacos除了可以做注册中心&#xff0c;同样可以做配置管理来使用。同时我们将学习一种新的远程调用方式…

迅为龙芯开发板开发板系统烧写-启动系统

上面所有的步骤我们都做完以后&#xff0c;输入命令 sync 确保我们之前的步骤都可以保存到 ssd&#xff0c;接着拔下 U盘&#xff0c;最后输入命令 reboot 重启开发板&#xff0c;如下图所示&#xff1a; 如果启动成功&#xff0c;我们会看到 pmon 从硬盘加载 linux 内核和文件…

烟雾文字动画效果

效果展示 CSS 知识点 transform 属性运用transform-origin 属性运用烟雾文字实现 整体页面结构布局实现 <section><p class"text">Lorem ipsum dolor sit amet consectetur adipisicing elit. Vero dolorevoluptas incidunt exercitationem. Consecte…

路径总和 III

题目链接 路径总和 III 题目描述 注意点 二叉树的节点个数的范围是 [0,1000]求该二叉树里节点值之和等于 targetSum 的 路径 的数目 解答思路 可根据前缀和的思路解决本题&#xff0c;前缀和表示从根节点开始&#xff0c;往左或往右组成的路径和&#xff0c;统计从根节点开…

大数据学习(1)-Hadoop

&&大数据学习&& &#x1f525;系列专栏&#xff1a; &#x1f451;哲学语录: 承认自己的无知&#xff0c;乃是开启智慧的大门 &#x1f496;如果觉得博主的文章还不错的话&#xff0c;请点赞&#x1f44d;收藏⭐️留言&#x1f4dd;支持一下博>主哦&#x…