目录
一、NoSQL
二、为什么会出现NoSQL技术
三、NoSQL的类别
键值(Key-Value)存储数据库
列存储数据库
文档型数据库
图形(Graph)数据库
四、NoSQL适应场景
五、在分布式数据库中CAP原理
1、CAP
2、BASE
一、NoSQL
NoSQL(Not Only SQL)即不仅仅是SQL,泛指非关系型的数据库,它可以作为关系型数据库的良好补充。随着互联网web2.0网站的兴起,非关系型的数据库现在成了一个极其热门的新领域,非关系数据库产品的发展非常迅速。
二、为什么会出现NoSQL技术
传统的关系型数据库只能存储结构化数据,对于非结构化的数据支持不够完善。NoSQL数据库的产生就是为了解决大规模数据集合多重数据种类带来的挑战,尤其是大数据应用难题。
-
High performance - 数据的高并发读写
-
Huge Storage - 海量数据的高效率存储和访问
-
High Scalability & High Availability - 数据库的高扩展和高可用
三、NoSQL的类别
键值(Key-Value)存储数据库
这一类数据库主要会使用到一个哈希表,这个表中有一个特定的键和一个指针指向特定的数据
Key/Value模型对于IT系统来说优势在于简单、易部署。
应用:内容缓存,主要用于处理大量数据的高访问负载
优势:快速查询
劣势:存储的数据缺少结构化
列存储数据库
这部分数据库通常是用来应对分布式存储的海量数据。键仍然存在,但是它们的特点是指向了多个列,这些列是由列家族来安排的
应用:分布式文件系统
优势:查找速度快,可扩展性强,更容易进行分布式扩展
劣势:功能相对局限
文档型数据库
该类型的数据模型 是版本化的文档,半结构化的文档以特定的格式存储,如JSON。文档型数据库可以看作是键值数据库的升级版,允许之间嵌套键值。而且文档型数据库比键值数据库的查询效率更高
应用:Web应用
优势:数据结构要求不严格
劣势:查询性能不高,且缺乏统一的查询语法
图形(Graph)数据库
图形结构的数据库同其他行列以及刚性结构的SQL数据库不同,它是使用灵活的图形模型,并且能够扩展到多个服务器上。NoSQL数据库没有标准的查询语言(SQL),因此进行数据库查询需要制定数据模型。许多NoSQL数据库都有REST格式的数据接口或者查询API
应用:社交网络
优势:利用图结构相关算法
劣势:需要对整个图做计算才能得出结果,不容易做分布式的集群方案
四、NoSQL适应场景
-
数据模型比较简单
-
需要灵活性更强的IT系统
-
对数据库性能要求较高
-
不需要高度的数据一致性
-
对于给定key,比较容易映射复杂的环境
-
取最新的N个数据(如排行榜)
-
数据缓存
五、在分布式数据库中CAP原理
1、CAP
C——consistency 强一致性
A——availability 可用性
P——partition tolerance 分区容错性
CAP理论是指在分布式存储系统中,最多只能实现上面的两点。由于当前的网络硬件存在延迟丢包等问题,所以分区容忍性是我们必须要实现的。所以我们只能在一致性和可用性之间进行权衡,没有NoSQL系统能同时保证这三点。
在做分布式架构的时候必须做出取舍。一致性和可用性之间取一个平衡。对于大多数web应用,其实并不需要强一致性。因此牺牲C换取P,这是目前分布式数据库产品的方向。
CAP理论的核心是:一个分布式系统不可能同时很好的满足一致性,可用性和分区容错性这三个需求,最多只能同时较好的满足两个。
因此,根据 CAP 原理将 NoSQL 数据库分成了满足 CA 原则、满足 CP 原则和满足 AP 原则三 大类:
-
CA 单点集群,满足一致性,可用性的系统,通常在可扩展性上不太强大。
-
CP 满足一致性,分区容忍必的系统,通常性能不是特别高。
-
AP 满足可用性,分区容忍性的系统,通常可能对一致性要求低一些。
CA——传统Oracle数据库
AP——大多数网站架构的选择
CP——Redis、Mongodb
2、BASE
BASE就是为了解决关系数据库强一致性引起的问题而导致可用性降低而提出的解决方案。
基本可用 (B==basically A==available)
软状态 (S==soft state)
最终一致 (E==eventually consistent)
它的思想是通过让系统放松对某一时刻数据一致性的要求来换取系统整体伸缩性和性能上改观。
为什么这么说呢,缘由就在于大型系统往往由于地域分布和极高性能的要求,不可能采用分布式事务来完成这些指标,要想获得这些指标,我们必须采用另外一种方式来完成,这里BASE就是解决这个问题的办法。