大数据对于系统架构的需求
显式的需求
- 海量计算和存储
- 快速计算
隐式的需求
- 数据的快速传输
- 灵活性
- 低成本
如何实现这些需求?
并行化(并行化的理念存在于计算机方方面面)
- 并行请求(分配给多个计算机)
- 并行线程(分配给多个处理器核心)
- 并行指令(同一时刻有多于一条指令)
- 并行数据(同一时刻有多于1个数据项 )
- 硬件描述(同一时刻使用所有门电路)
规模经济(极端规模的并行化:仓库规模的计算机 WSC)
- 主要部件 —— 供电、制冷、建筑、网络、安全、存储、计算
- 优势 —— 规模经济、提高使用率
- 挑战 —— 能耗PUE、运维
WSC是用网络连接起来的计算和存储设备
WSC的特点:
1、使用相对同质的硬件和系统软件平台
2、共享相同的系统管理
3、大多数应用程序、中间件、系统软件都是自主开发,而传统数据中心则由第三方软件主导
4、WSC运行相对小数目的超大型程序(或服务)
5、通用的资源管理架构增强了部署的灵活性
虚拟化(抽象)
云计算的商业模式概述
—— 云计算的定义
云计算 Cloud computing 既指作为服务通过互联网提供的应用程序(SaaS模式),又指提供这些服务的,位于数据中心的硬件和系统软件(公用计算)
云:数据中心硬件与软件
公有云:用即付即用的模式,开放给大众使用的云
私有云:一个企业或组织内部的数据中心
公用计算:给人以无限资源的错觉
—— 云计算商业模式的三大特点
- 按需服务
- 资源池
- 可测量的服务
—— 云计算发展的市场条件
- 大规模互联网应用(社交网络、多媒体)
1、规模经济
2、需求增长促进数据中心建设增长
3、无法预测的应用增长速度Zynga,Netflix - 大数据应用
1、日志分析
2、机器学习应用
云计算的价值
云计算的分类
- 指令集虚拟机(Amazon EC2, 3Tera)
- 运行时系统虚拟机(Microsoft Azure)
- 框架型虚拟机(Goole AppEngine,Force.com)
- 折衷:灵活性/可移植性
为什么要虚拟化
资源池
- 聚合:将多个资源结合起来
- 合一:例如存储
- 动态:快速分配(虚拟机)
隔离
:保护消费者隔离其他租客 ,例如虚拟专用网(VPN)
便于管理
:测试、机动性
云计算的核心思想
- 性能:并行化
- 经济性:规模化、公有云
- 可管理:虚拟化
从云计算到大数据
- 虚拟化提供了硬件资源的抽象
- 用户看到的接口
(虚拟)计算节点
(虚拟)网络
(虚拟)存储
- 仍然是许多独立的设备:需要分布式系统编程
- 如何提供一个易于编程的“单一系统”感觉
分布式存储、计算框架