云计算期末复习(2)

MapReduce

包含Google MapReduce基本构架、Hadoop MapReduce基本构架

作业(问答题)

(1)预习论文The Google File System,总结和分析GFS主要特点。

GFS的主要特点包括:

1. 高可靠性和容错性:GFS设计考虑到组件故障是常态,系统中的存储节点和客户端机器数量众多,因此系统必须具备持续监控、错误检测、容错和自动恢复的能力。

2. 大文件支持:GFS中的文件通常都是非常大的,常见的文件大小为多GB。这些文件通常包含许多应用对象,如网页文档。为了管理这些大文件,GFS需要重新考虑I/O操作和块大小等设计参数。

3. 追加写入操作:大多数文件在GFS中是通过追加新数据而不是覆盖现有数据来进行修改的。随机写入几乎不存在,文件通常只被顺序读取。这种访问模式使得追加操作成为性能优化的重点,并且客户端缓存数据块的需求降低。

4. 应用和文件系统API的协同设计:GFS通过协同设计应用和文件系统API来增加系统的灵活性。例如,GFS放宽了一致性模型,简化了文件系统的设计,并引入了原子追加操作,使得多个客户端可以并发地向文件追加数据而无需额外的同步。

5. 高可扩展性和高可用性:GFS可以部署多个集群,每个集群都可以包含上千个存储节点和数百个客户端机器。系统通过阴影主节点机制提供高可扩展性和高可用性。

其他知识点

大规模数据处理时,MapReduce在三个层面上的基本构思

如何对付大数据处理:分而治之     对相互间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略

上升到抽象模型:Mapper与Reducer     MPI等并行计算方法缺少高层并行编程模型,为了克服这一缺陷,MapReduce借鉴了Lisp函数式语言中的思想,用Map和Reduce两个函数提供了高层的并行编程抽象模型

  • Map: 对一组数据元素进行某种重复式的处理
  • Reduce: 对Map的中间结果进行某种进一步的结果整理

上升到构架:统一构架,为程序员隐藏系统层细节     MPI等并行计算方法缺少统一的计算框架支持,程序员需要考虑数据存储、划分、分发、结果收集、错误恢复等诸多细节;为此,MapReduce设计并提供了统一的计算框架,为程序员隐藏了绝大多数系统层面的处理细节

1.如何提供统一的计算框架

MapReduce提供一个统一的计算框架,可完成:

  1. 计算任务的划分和调度
  2. 数据的分布存储和划分
  3. 处理数据与计算任务的同步
  4. 结果数据的收集整理(sorting, combining, partitioning,…)
  5. 系统通信、负载平衡、计算性能优化处理
  6. 处理系统节点出错检测和失效恢复

2.MapReduce最大的亮点

通过抽象模型和计算框架把需要做什么(what need to do)与具体怎么做(how to do)分开了,为程序员提供一个抽象和高层的编程接口和框架

 Google MapReduce并行处理的基本过程

  1. 有一个待处理的大数据,被划分为大小相同的数据块(如64MB),及与此相应的用户作业程序
  2. 系统中有一个负责调度的主节点(Master),以及数据Map和Reduce工作节点(Worker)
  3. 用户作业程序提交给主节点
  4. 主节点为作业程序寻找和配备可用的Map节点,并将程序传送给map节点
  5. 主节点也为作业程序寻找和配备可用的Reduce节点,并将程序传送给Reduce节点
  6. 主节点启动每个Map节点执行程序,每个map节点尽可能读取本地或本机架的数据进行计算
  7. 每个Map节点处理读取的数据块,并做一些数据整理工作(combining, sorting等)并将中间结果存放在本地;同时通知主节点计算任务完成并告知中间结果数据存储位置
  8. 主节点等所有Map节点计算完成后,开始启动Reduce节点运行;Reduce节点从主节点所掌握的中间结果数据位置信息,远程读取这些数据
  9. Reduce节点计算结果汇总输出到一个结果文件即获得整个处理结果

相关问题

分布式文件系统GFS的基本工作原理

 Google GFS是一个基于分布式集群的大型分布式文件系统,为MapReduce计算框架提供底层数据存储和数据可靠性支撑;  

GFS是一个构建在分布节点本地文件系统之上的一个逻辑上文件系统,它将数据存储在物理上分布的每个节点上,但通过GFS将整个数据形成一个逻辑上整体的文件。

廉价本地磁盘分布存储   各节点本地分布式存储数据,优点是不需要采用价格较贵的集中式磁盘阵列,容量可随节点数增加自动增加。

多数据自动备份解决可靠性   采用廉价的普通磁盘,把磁盘数据出错视为常态,用自动多数据备份存储解决数据存储可靠性问题。

为上层的MapReduce计算框架提供支撑   GFS作为向上层MapReduce执行框架的底层数据存储支撑,负责处理所有的数据自动存储和容错处理,因而上层框架不需要考虑低层的数据存储和数据容错问题。

 分布式结构化数据表BigTable

详细内容见第6讲课件,不多赘述

Hadoop MapReduce基本构架

详细内容见第7讲课件,不多赘述(Hadoop主要为课程实验服务)


云计算虚拟化技术

知识点

虚拟化技术概念

虚拟化包括三个方面的含义:

  1. 虚拟化的对象是各种各样的资源;
  2. 经过虚拟化后的逻辑资源对用户隐藏不必要的实现细节;
  3. 用户可以在虚拟环境中实现其在真实环境中的部分或全部功能。                                                                                                                                    ---IBM对虚拟化的定义

资源涵盖的意义包括各种硬件资源,如CPU、内存、存储区、网络设施,或者操作系统、应用程序。

虚拟化的目的:将资源进行抽象化封装成标准的输入输出接口,简化对资源的访问、表示和管理,实现资源使用者和资源具体实现之间的松耦合。

 基础设施虚拟化-网络虚拟化

网络虚拟化主要是指抽象出一个网络虚拟层,将网络资源的能力从硬件中剥离出 来,由网络虚拟层来实现原有网络设备所具有的的路由、IP、ACL、拥塞控制 等能力,并对上层应用提供API,实现实现网络能力与硬件的解耦。

 SDN

SDN:软件定义网络

SDN其核心理念是使网络软件化并充分开放,使得网络能够像软件一样便捷、灵活和定制,以此提高网络的创新能力。 实现可编程网络,将原本封闭的网络设备控制面(Control Plane)和数据转发面(DATA Transfer)分离,由集中的控制器来管理,通过开放该控制器来实现网络能力的开放性。

1. 分离控制和转发的功能 2. 控制集中化 3. 提供广泛定义的(软件)接口 ,使得网络可编程


基础设施虚拟化-存储虚拟化

存储虚拟化是指将物理的存储设备抽象成一个存储的逻辑视图,用户可以通过视图中的逻辑接口来访问被整合的存储资源。

1.基于存储设备的存储虚拟化:磁盘阵列技术(RAID)

2.基于网络的存储虚拟化:网络附件存储(NAS)、存储区域网(SAN)

虚拟化目的:将物理存储实体与存储的逻辑表示分离开来,应用服务器只与分配给它们的逻辑卷(或称虚卷)打交道,而不用关心其数据是在哪个物理存储实体上。

存储虚拟化可以将存储利用率提高到80%或更高。


  • 存储虚拟化-实现模式
  • 基于主机的存储虚拟化
  • 基于存储设备的存储虚拟化
  • 基于网络的存储虚拟化
  • 三种存储虚拟化比较
  • 带内虚拟化与带外虚拟化

虚拟化(服务器、应用、桌面) 

详细内容见第8讲课件,不多赘述


云计算安全

知识点

什么是云安全

概念:云计算安全 指的是为了保护云环境中的数据、应用程序、以及逻辑和物理层面上的基础设施而制定或实施的策略和技术手段。

概念:安全即服务 也是一类重要的服务模式,它指的是云服务提供商为用户提供基于云的安全服务。

云安全在不同的场景下往往对应的含义

云安全与传统信息安全的异同点

云安全的威胁

具体表现在以下几个方面:

一、由物理计算资源共享带来的虚拟机安全问题;

二、由数据的拥有者与数据之间的物理分离带来的用户数据隐私保护与云计算可用性之间的矛盾;

三、用户行为隐私问题;

四、云计算服务的安全管理方面的问题。

 云计算安全技术

虚拟化技术的意义

云计算系统的虚拟化安全问题

云平台为用户提供的服务

安全即服务

 

其余知识点参考第9讲

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/17498.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

boot项目中定时任务quartz

最近换项目组,发现项目中定时任务使用的是quartz框架,上一篇文章[springboot定时任务]也是使用的quartz,只不过实现方式不同,于是整理下 定时任务常用方法有Quartz,Spring自带的Schedule框架 Quartz基础知识 quartz…

linux开发之设备树

设备树的基本概念 1.什么是设备树?为什么叫设备树呢? 设备树是描述硬件的文本文件&#xff0c;因为语法结构像树一样。所以叫设备树。 2.基本名词解释 <1>DT:Device Tree //设备树 <2>FDT:Flattened Device Tree //开放设备树&#xff0c;起源于0penFirmware(0F…

[论文笔记]Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

引言 今天带来思维链论文 Chain-of-Thought Prompting Elicits Reasoning in Large Language Models的笔记。 作者探索了如何通过生成一系列中间推理步骤的思维链&#xff0c;显著提升大型语言模型在进行复杂推理时的能力。 1 总体介绍 语言模型的规模扩大已被证明能够带来…

力扣239. 滑动窗口最大值

Problem: 239. 滑动窗口最大值 文章目录 题目描述思路复杂度Code 题目描述 思路 1.编写实现优先队列类&#xff1a; 1.1.实现push(int n):将元素n添加到队列尾&#xff0c;同时将n前面大于n的元素删除 1.2.实现int max():将队列头元素取出&#xff08;由于实现了push所以此时队…

Linux基础 (十):Linux 信号的使用

目录 一、信号的基本概念 二、信号处理常见方式概览 三、修改信号的响应方式 – signal() 3.1 简单复习结束前台进程 3.2 改变SIGINT信号的响应方式 3.3 自定义方式改变进程对信号的响应 3.4 进程对信号作出两种响应 四、发送信号 – kill() 五、利用信号解决僵死进程…

2024电激世界脉动-中国汽车品牌全球化制胜手册

来源&#xff1a;奥美Ogilvy&#xff1a; 近期历史回顾&#xff1a; 2024中国宏观经济专题报告-数据要素市场建设 2023-2024年度报告.pdf 2024制药与生化医疗技术产业链白皮书.pdf 从可再生能源到绿氢-中国投资助力埃及能源转型.pdf 2024有机旅行中国行业指引.pdf 2024中国技术…

运营商系统快速上云的实践分享

运营商系统上云的背景 系统上云是数字经济发展的潮流&#xff0c;在数字化转型的浪潮中&#xff0c;上云已经成为推动各行各业创新和效率提升的关键力量。运营商作为服务行业和企业上云的服务商&#xff0c;积极响应国家号召的同时为行业上云打造案例标杆&#xff0c;自身的系统…

常用目标检测预训练模型大小及准确度比较

目标检测是计算机视觉领域中的一项重要任务&#xff0c;旨在检测和定位图像或者视频中的目标对象。当人类观看图像或视频时&#xff0c;我们可以在瞬间识别和定位感兴趣的对象。目标检测的目标是使用计算机复制这种智能。 近年来&#xff0c;目标检测网络的发展日益成熟&#…

四步简单操作:轻松将iCloud照片恢复到相册

随着智能手机的普及&#xff0c;我们的生活中越来越多的照片存储在了云端&#xff0c;其中iCloud提供了便捷的照片备份和存储服务。但有时候&#xff0c;我们可能会不小心删除了在iCloud上的照片&#xff0c;或者想要将iCloud中的照片恢复到手机相册中。 在这篇文章中&#xf…

【数据结构】快速排序(详解)

目录 快速排序 历史&#xff1a; 基本思想&#xff1a; 主框架&#xff1a; 下面解释实现单次排序的几种版本&#xff1a; 1.Hoare版本 2. 挖坑法 3. 前后指针法 快速排序的实现包括递归与非递归&#xff1a; 1. 递归实现&#xff1a;&#xff08;即开头的基本框架&am…

Jenkins安装 :AWS EC2 Linux

1 JDK11 install # 用的yum安装 # 压缩包安装&#xff0c;下载的jdk-11.0.22_linux-x64_bin.tar.gz在EC2解压&#xff0c;配置环境变量&#xff0c;运行jenkins的时候会报错$ yum -y list java-11* Available Packages java-11-amazon-corretto-devel.x86_64 …

动手学深度学习4.6 暂退法-笔记练习(PyTorch)

以下内容为结合李沐老师的课程和教材补充的学习笔记&#xff0c;以及对课后练习的一些思考&#xff0c;自留回顾&#xff0c;也供同学之人交流参考。 本节课程地址&#xff1a;丢弃法_哔哩哔哩_bilibili 本节教材地址&#xff1a;4.6. 暂退法&#xff08;Dropout&#xff09;…

LangChain技术解密:构建大模型应用的全景指南

&#x1f482; 个人网站:【 摸鱼游戏】【神级代码资源网站】【工具大全】&#x1f91f; 一站式轻松构建小程序、Web网站、移动应用&#xff1a;&#x1f449;注册地址&#x1f91f; 基于Web端打造的&#xff1a;&#x1f449;轻量化工具创作平台&#x1f485; 想寻找共同学习交…

使用目标检测模型YOLO V9 OBB进行旋转目标的检测:训练自己的数据集(基于卫星和无人机的农业大棚数据集)

我看到YOLO V8中&#xff08;ultralytics版本8.2.18&#xff09;集成了YOLO V9&#xff0c;所以直接在YOLO V8 OBB的基础上实现YOLO V9 OBB&#xff0c;训练结果也出来了&#xff0c;但是评估指标比YOLO V8 OBB低一点点&#xff0c;不知道是不是哪里遗漏修改了......如有大神赐…

【Linux学习】进程间通信 (2) —— 信号

下面是有关进程通信中信号的相关介绍&#xff0c;希望对你有所帮助&#xff01; 小海编程心语录-CSDN博客 目录 1. 信号 1.1 概念 1.2 信号的产生 1.3 信号的处理方式 2. 函数 2.1 kill() 函数 2.2 signal()函数 2.3 sigaction()函数 2.4 sigprocmask()函数 …

文盘Rust -- 生命周期问题引发的 static hashmap 锁

100编程书屋_孔夫子旧书网 2021年上半年,撸了个rust cli开发的框架,基本上把交互模式,子命令提示这些cli该有的常用功能做进去了。项目地址:https://github.com/jiashiwen/interactcli-rs。 春节以前看到axum已经0.4.x了,于是想看看能不能用rust做个服务端的框架。 春节…

如何从Android恢复已删除的文件?3 种有效的方式

有时我们可能会错误地删除Android设备上的重要文件。更疯狂的是&#xff0c;Android手机上的文件在一夜之间消失了&#xff0c;我们不知道为什么。我们感到非常遗憾和恼火&#xff0c;但不知道。但是&#xff0c;此时学习如何从Android手机恢复已删除的文件为时已晚&#xff0c…

Excel 取出每组最后一行

Excel的前两列是两层的分组列&#xff0c;后两列是明细 ABCD1CM11112CM12123CM13134CM14145CM25156CM26167BM11218BM12229BM232310AM113111AM323212AM333313AM3434 现在要取出每小组的最后一行&#xff1a; ABCD1CM14142CM26163BM12224BM23235AM11316AM3434 使用 SPL XLL sp…

拼多多商品详情商品标题sku等信息抓取接口API调用步骤演示

接口名称&#xff1a;item_get_app_pro 公共参数 名称类型必须描述keyString是调用key&#xff08;必须以GET方式拼接在URL中&#xff09;secretString是调用密钥api_nameString是API接口名称&#xff08;包括在请求地址中&#xff09;[item_search,item_get,item_search_sho…

两台电脑怎么互传文件?这些方法你值得一试

在日常生活和工作中&#xff0c;我们经常需要在不同电脑之间传输文件&#xff0c;这可能是文档、照片、音乐或其他类型的文件。两台电脑怎么互传文件是非常有用的技能&#xff0c;可以提高工作效率并简化文件共享过程。本文将介绍三种常见的方法&#xff0c;帮助您了解如何在两…