BJFU|大数据基础考前速记(含考试大纲与复习笔记)

考试大纲与复习笔记在文末

考前速记

2010年前后,大数据、云计算、物联网的快速发展拉开了第三次信息化浪潮的大幕。

信息科技需要解决信息存储、信息处理和信息传输三个核心问题。解决方式是:存储设备容量不断增加、CPU处理能力大幅提升、网络带宽不断增加。

信息:数据的有序排列;数据:信息的基本单位

人类社会的数据产生方式:运营式系统阶段、用户原创内容阶段、感知式系统阶段

大数据的4V:数据量大(Volume)、数据类型繁多(Variety)、处理速度快(Velocity)、价值密度低(Value)

人类科学研究:实验科学、理论科学、计算科学、数据密集型科学

大数据对思维方式的影响:全样而非抽样、效率而非精确、相关而非因果

大数据对社会发展的影响:大数据决策成为一种新的决策方式、大数据应用促进信息技术与各行业的深度融合、大数据开发推动新技术和新应用的不断涌现

大数据技术主要包括:数据采集与预处理、数据存储和管理、数据处理和分析、数据安全和隐私保护等几个层面的内容

大数据计算模式有:批处理计算、流计算、图计算、查询分析计算

云计算的概念:云计算实现了通过网络提供可伸缩的、廉价的分布式计算能力,用户只需要在具备网络接入条件的地方,就可以随时随地获得所需的各种IT资源。

云计算代表了以虚拟化技术为核心、以低成本为目标、动态可拓展的网络应用基础设施。

云计算的三种典型模式:基础设施即服务、平台即服务、软件即服务。

云计算的关键技术:虚拟化、分布式存储、分布式计算、多租户等。

虚拟化是基石,指将一台计算机虚拟为多台计算机,在一台计算机上同时运行多台逻辑计算机。

物联网:物物相连的互联网,是互联网的延伸。

物联网关键技术:识别和感知技术、网络和通信技术、数据挖掘与融合技术

分布式文件系统一般采用C/S模式

目前的分布式文件系统所采用的计算机集群都是由普通硬件构成的

集群中的计算机节点主要放在机架上,同一机架不同节点采用网络互联,多个不同机架之间采用另一级网络或者交换机互连。

分布式文件系统中块是读写的基本单元,如果一个文件小于一个数据块的大小,并不占用整个数据块的存储空间。

分布式文件系统的物理结构:计算机集群中多个节点——主节点(名称节点)和从节点(数据节点)。

名称节点负责文件和目录的创建、删除与重命名,管理数据节点与文件块的映射关系。客户端只有访问名称节点才能找到请求的文件块所在位置,进而读取所需文件块。数据节点负责数据的存储于读取,在存储时由名称节点分配存储位置,然后由客户端把数据直接写入数据节点;在读取时客户端从名称节点获得数据块节点和文件块的映射关系,然后就可以到相应位置访问。

保证分布式文件系统数据完整性——多副本存储

HDFS采用了抽象的块的概念,支持大规模文件存储、简化系统设计、适合数据备份。

HDFS中,名称节点负责管理分布式文件系统的命名空间。FsImage用于维护文件系统树中文件和文件夹的元数据,操作日志文件EditLog记录了针对文件的操作。

名称节点记录了文件中各个块所在数据节点的位置信息,但并不持久地存储,而是在系统启动时扫描所有数据并重构。

第二名称节点——解决EditLog逐渐变大的问题。功能:减少EditLog文件大小,缩短名称节点重启时间、作为名称节点的“检查点”,保存名称节点中元数据信息。

HDFS采用主从(M/S)结构模型,一个名称节点和多个数据节点。

“心跳”信息——报告数据节点状态。

名称节点不参与数据传输——提高数据访问速度。

HDFS命名空间包含目录、文件和块,整个HDFS集群只有一个命名空间并且只有唯一一个名称节点。

HDFS通信协议是建立在TCP/IP基础上的

名称节点和数据节点之间使用数据节点协议进行交互。

HDFS采用多副本存储方式,保证容错性与可用性。其优点是:加快数据传输速度、容易检查数据错误、保证数据可靠性

HDFS的数据存放以机架为基础,默认每个数据节点都在不同的机架上。这样的缺点是:写入数据的时候不能充分利用同一机架内部机器之间的带宽;优点是:获得数据可靠性,加大读取速度,更容易实现负载均衡与错误处理。

数据读取:根据API

数据复制:流水线复制策略

名称节点出错:到远程挂载的网络文件系统中获取备份的元数据信息放到第二名称节点恢复,并把第二名称节点作为名称节点使用。

数据节点出错:接收不到“心跳”信息,标记为“死机”,定期启动冗余复制生成副本。HDFS可以调整冗余数据的位置

数据出错:客户端请求到另外一个数据节点读取该文件块。

复习大纲:

大数据、云计算、人工智能技术三者的关系

HDFS的主从结构、名称数据节点、流水作业方式读写过程基本操作

HBase的HDFS关系、结构、不同的表示方式(视图)、内部体系结构、内外存置换、设计数据库

MAPReduce:批处理、两个函数的特点(分别并行)、Shuffe的过程、给一个任务编写函数(不写代码)

NoSQL数据库(四种类型)、不看CAP

HDFS HA: secondary node实现、YARN的设计思路

Spark:和HADOOP区别、RDD、DAG、架构设计、血缘、宽窄依赖的联系与区别

Flink:lambda架构、传输处理沉淀三层

流数据处理:包含了什么

复习笔记

BJFU-大数据考点+PPT摘录.docx资源-CSDN文库

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/732281.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Flutter图片内存占用过大问题

图片(Image)加载原理: Image : 显示图⽚的Widget,通过ImageState管理ImageProvider的⽣命周期。 ImageProvider: 图⽚的抽象概念。 根据Image创建实例时调用的工厂方法的不同(Image.network或者Image.assetImage&#…

mysql根据时间段生成时间

在开发过程中,经常会遇到统计,如果统计的时间段内有间隔,不管是左连接还是右连接都不会有,所以这时候我们需要写个语句能补全这段时间内所有的时间,然后用时间去关联业务查询。 select num : num 1,date_format(addda…

WPF DataGrid常用属性

AlternationCount属性:表示有几行不同的颜色来回替换,如果设置2则表示有两个颜色交替循环 AutoGenerateColumns属性:是否生成列 CanUserAddRows属性:用户是否可以添加行 CanUserDeleteRows属性:用户是否可以删除行 …

【FPGA/IC】CRC电路的Verilog实现

前言 在通信过程中由于存在各种各样的干扰因素,可能会导致发送的信息与接收的信息不一致,比如发送数据为 1010_1010,传输过程中由于某些干扰,导致接收方接收的数据却成了0110_1010。为了保证数据传输的正确性,工程师们…

2023年第三届中国高校大数据挑战赛(第二场)D题思路

赛题D:行业职业技术培训能力评价 中国是制造业大国,产业门类齐全,每年需要培养大量的技能娴熟的技术工人进入工厂。某行业在全国有多所不同类型(如国家级、省级等)的职业技术培训学校,进行 5 种技能培训。…

禁止使用搜索引擎,你了解吗?

员工A:“我今天想搜索的时候,用不了浏览器了,你能用么?” 员工B:“不知道啊我试一下啊” “也不行” 员工C:“为什么啊?” 针对上述对话,我们不禁思考: 公司为什么禁…

python基础9_序列类型

回顾: 什么是变量?,有什么用? 可以变化的量, 就是个容器,多次变化,方便后续使用, 前面介绍了哪些数据类型? bool, str, int, float 用什么函数查看数据的类型? a "hello" print(type(a)) 到了这一步,,我们认识了哪些数据类型呢? int 整型(整数), float…

office下常见问题总结——(持续更新学习记录中......)

目录 Wordword2019中, 当给选定的汉字设置格式后,其他相同汉字也会自动应用相同的格式?在Word中,当输入数字后加上句点(.)时会自动被识别为标题,如何关闭功能?如何让当前的word中的样式 ,匹配全局模版中的样式?在word中,为什么…

一、NLP中的文本分类

目录 1.0 文本分类的应用场景 1.1 文本分类流程 ​编辑 1.2 判别式模型 1.3 生成式模型 1.4 评估 1.5 参考文献 1.0 文本分类的应用场景 (1)情感分析:中性,正向评论,负向评论,黄色言论,暴…

Java基础 - 8 - 算法、正则表达式、异常

一. 算法 什么是算法? 解决某个实际问题的过程和方法 学习算法的技巧? 先搞清楚算法的流程,再直接去推敲如何写算法 1.1 排序算法 1.1.1 冒泡排序 每次从数组中找出最大值放在数组的后面去 public class demo {public static void main(S…

Matlab偏微分方程拟合 | 完整源码 | 视频教程

专栏导读 作者简介:工学博士,高级工程师,专注于工业软件算法研究本文已收录于专栏:《复杂函数拟合案例分享》本专栏旨在提供 1.以案例的形式讲解各类复杂函数拟合的程序实现方法,并提供所有案例完整源码;2.…

call()与apply()的作用与区别

概念 每个函数都包含两个非继承而来的方法:apply()和call()。 call与apply都属于Function.prototype的一个方法,所以每个function实例都有call、apply属性; 作用 call()方法和apply()方法的作用相同:改变this指向。 区别 他们…

力扣hot100题解(python版63-68题)

63、搜索插入位置 给定一个排序数组和一个目标值,在数组中找到目标值,并返回其索引。如果目标值不存在于数组中,返回它将会被按顺序插入的位置。 请必须使用时间复杂度为 O(log n) 的算法。 示例 1: 输入: nums [1,3,5,6], target 5 输…

【npm】前端工程项目配置文件package.json详解

简言 详细介绍了package.json中每个字段的作用。 package.json 本文档将为您介绍 package.json 文件的所有要求。它必须是实际的 JSON,而不仅仅是 JavaScript 对象文字。 如果你要发布你的项目,这是一个特别重要的文件,其中name和version是…

王升:Audio电感对车载功放EMC的影响 | 演讲嘉宾公布

一、智能车载音频 II 专题论坛 智能车载音频 II 专题论坛将于3月28日同期举办! 我们正站在一个前所未有的科技革新的交汇点上,重塑我们出行体验的变革正在悄然发生。当人工智能的磅礴力量与车载音频相交融,智慧、便捷与未来的探索之旅正式扬帆…

若依/RuoYi-Vue使用docker-compose部署

系统需求 JDK > 1.8 MySQL > 5.7 Maven > 3.0 Node > 12 Redis > 3 思路 前端服务器 nginx 后端服务器代码打包 java、maven、node 数据库/缓存 mysql、redis 开始 创建目录ruoyi并进入 克隆若依代码 git clone RuoYi-Vue: 🎉 基于Spring…

试用期自我总结报告10篇

试用期自我总结报告(篇1) 一转眼试用期的时间飞快就过去了,在这段时间里我学习到了很多,也把自己在过去学习的东西得已融会贯通。能够来到幼儿园里成为一名老师是我一直以来的目标,而我也终于完成了自己的目标&#x…

Winform窗体随着屏幕的DPI缩放,会引起窗体变形及字体变形,superTabControl标签字体大小不匹配

一、前言 superTabControl做的浏览器标签(cefsharp)在缩放比例(125%,150%时字体不协调) 物联网浏览器,定制浏览器,多媒体浏览器(支持H264)参考栏目文章即可 二、配置参数 app.manifest参数 dpiAware =true <application xmlns="urn:schemas-microsoft-c…

用 Axios 提升前端异步请求的效率

&#x1f90d; 前端开发工程师、技术日更博主、已过CET6 &#x1f368; 阿珊和她的猫_CSDN博客专家、23年度博客之星前端领域TOP1 &#x1f560; 牛客高级专题作者、打造专栏《前端面试必备》 、《2024面试高频手撕题》 &#x1f35a; 蓝桥云课签约作者、上架课程《Vue.js 和 E…

数据仓库作业一:第1章 绪论

目录 一、给出下列英文短语或缩写的中文名称&#xff0c;并简述其含义。二、简述操作型数据与分析型数据的主要区别。三、简述数据仓库的定义。四、简述数据仓库的特征。五、简述主题的定义。六、简述元数据的概念。七、简述数据挖掘的主要任务。八、简述数据挖掘的主要步骤。九…