修改所有列_哪些数据库是行存储?哪些是列存储?有什么区别?

4c503218f245f5c79392d39bffc65f05.png

大多数数据库系统存储一组数据记录,这些记录由中的组成。字段是列和行的交集:某种类型的单个值。

属于同一列的字段通常具有相同的数据类型。例如,如果我们定义了一个包含用户数据的表,那么所有的用户名都将是相同的类型,并且属于同一列。在逻辑上属于同一数据记录(通常由键标识)的值的集合构成一行。

对数据库进行分类的方法之一是按数据在磁盘上的存储方式进行分类:按行或按列进行分类。表可以水平分区(将属于同一行的值存储在一起),也可以垂直分区(将属于同一列的值存储在一起)。图1-2描述了这种区别:a)显示了按列分区的值,b)显示了按行分区的值。

1f9296e6fc161228f108ac15981e2338.png
▲图1-2:面向列和行的存储中的数据布局

面向行的数据库的例子很多:MySQL、PostgreSQL大多数传统的关系数据库。而两个开源的、面向列数据存储的先驱则是MonetDBC-Store(C-Store是Vertica的开源前身)。

01 面向行的数据布局

面向行的数据库按记录或来存储数据。它的布局非常接近表格的数据表示方法,即其中每一行都具有相同的字段集合。例如,面向行的数据库可以有效地存储用户条目,其中包含姓名、出生日期和电话号码:

| ID | Name | Birth Date | Phone Number || 10 | John | 01 Aug 1981 | +1 111 222 333 || 20 | Sam | 14 Sep 1988 | +1 555 888 999 || 30 | Keith | 07 Jan 1984 | +1 333 444 555 |

这种方法适用于如下的场景:数据记录(姓名、出生日期和电话号码)由多个字段组成且由某个键(在本例中为单调递增的ID)所唯一标识。表示单个用户的数据记录的所有字段通常被一起读取。在创建数据时(例如,当用户填写注册表单时),我们也将它们一起写入数据库。与此同时,我们可以单独修改某个字段。

在需要按行访问数据的情况下,面向行的存储最有用,将整行存储在一起可以提高空间局部性。

因为诸如磁盘之类的持久性介质上的数据通常是按块访问的(换句话说,磁盘访问的最小单位是块),所以单个块可能将包含某行中所有列的数据。

这对于我们希望访问整个用户记录的情况非常有用,但这样的存储布局会使访问多个用户记录某个字段的查询(例如,只获取电话号码的查询)开销更大,因为其他字段的数据在这个过程中也会被读入。

796b450e139a38c4a1fb232fc59dc203.png

02 面向列的数据布局

面向列的数据库垂直地将数据进行分区(即通过列进行分区),而不是将其按行存储。在这种数据存储布局中,同一列的值被连续地存储在磁盘上(而不是像前面的示例那样将行连续地存储)。

例如,如果我们要存储股票市场的历史价格,那么股票价格这一列的数据便会被存储在一起。将不同列的值存储在不同的文件或文件段中,可以按列进行有效的查询,因为它们可以一次性地被读取出来,而不是先对整行进行读取后再丢弃掉不需要的列。

面向列的存储非常适合计算聚合的分析型工作负载,例如查找趋势、计算平均值等。如果逻辑记录具有多个字段,但是其中某些字段(在本例中为股票价格)具有不同的重要性并且该字段所存储的数据经常被一起使用,那么我们一般使用复杂聚合来处理这样的情况。

从逻辑角度看,表示股票市场价格的数据仍旧可以表示为表的形式:

| ID | Symbol | Date | Price || 1 | DOW | 08 Aug 2018 | 24,314.65 || 2 | DOW | 09 Aug 2018 | 24,136.16 || 3 | S&P | 08 Aug 2018 | 2,414.45 || 4 | S&P | 09 Aug 2018 | 2,232.32 |

而列式存储则看起来与上述存储布局完全不同—属于同一列的值被紧密地存储在一起:

Symbol: 1:DOW; 2:DOW; 3:S&P; 4:S&PDate: 1:08 Aug 2018; 2:09 Aug 2018; 3:08 Aug 2018; 4:09 Aug 2018Price: 1:24,314.65; 2:24,136.16; 3:2,414.45; 4:2,232.32

为了重建数据元组(这对于连接、筛选和多行聚合可能很有用),我们需要在列级别上保留一些元数据,以标识与它关联的其他列中的数据点是哪些。如果你显式地执行此操作,则需要每个值都必须持有一个键,这将导致数据重复并增加存储的数据量。

针对这种需求,一些列存储使用隐式标识符(虚拟ID),并使用该值的位置(换句话说,其偏移量)将其映射回相关值。

在过去几年中,可能由于对不断增长的数据集运行复杂分析查询的需求不断增长,我们看到了许多新的面向列的文件格式,如Apache Parquet、Apache ORC、RCFile,以及面向列的存储,如Apache Kudu、ClickHouse,以及许多其他列式数据存储组件。

3ab25ec040ffff83785eb53d7da174dc.png

03 区别与优化

认为行存储和列存储之间的区别仅在于数据的存储方式有所不同,这是不充分的。选择数据布局只是列式存储所针对的一系列可能的优化的步骤之一。

在一次读取中,从同一列中读取多个值可以显著提高缓存利用率和计算效率。在现代CPU上,向量化指令可以使单条CPU指令一次处理多个数据点。

另外,将具有相同数据类型的值存储在一起(例如,数字与数字在一起,字符串与字符串在一起)可以提高压缩率。我们可以根据不同的数据类型使用不同的压缩算法,并为每种情况选择最有效的压缩方法。

要决定是使用面向列还是面向行的存储,你需要了解访问模式。如果所读取的记录中的大多数或所有列都是需要的,并且工作负载主要由单条记录查询和范围扫描组成,则面向行的存储布局可能产生更好的结果。如果扫描跨越多行,或者在列的子集上进行计算聚合,则值得考虑使用面向列的存储布局。

04 宽列式存储

面向列的数据库不应与宽列式存储(如BigTable或HBase)相混淆。在这些数据库中,数据表示为多维映射,列被分组为列族(通常存储相同类型的数据),并且在每个列族中,数据被逐行存储。此布局最适合存储由一个键或一组键来检索的数据。

BigTable论文中的一个典型示例是WebTable。一个WebTable存储着一个带有某个时间戳、包含如下信息的快照:网页内容、属性以及它们之间的关系。

页面由反向URL所标识,并且所有属性(如页面内容和锚,锚表示页面之间的链接)由生成这些快照的时间戳来标识。简而言之,它可以表示为一个嵌套的映射,如图1-3所示。

d75789ea936039414dbec764f12fdf81.png
▲图1-3:WebTable的概念性结构

数据存储在具有层次索引的多维排序映射中:我们可以通过特定网页的反向URL来定位与该网页相关的数据,也可以通过时间戳来定位该网页的内容或锚。每一行都按其行键进行索引。

在列族中,相关列被分组在一起(在本例中为contents和anchor),这些列族分别存储在磁盘上。列族中的每个列都由列键标识,该键是列族名称和限定符(在本例中为html,http://cnnsi.com,http://my.look.ca)的组合。

列族可以按照时间戳存储多个版本的数据。这种布局使得我们可以快速定位更高层的条目(在本例中为Web页面)及其参数(不同版本的内容和指向其他页面的链接)。

理解宽列式存储的概念表示是有用的,而它们的物理布局也有所不同。列族的数据布局示意图如图1-4所示:列族被单独存储,但在每个列族中,属于同一键的数据被存储在一起。

2f3f9e28d99804380fbbfb89e06b9188.png
▲图1-4:WebTable的物理结构

[声明]本文版权归原作者所有,内容为作者个人观点,转载目的在于传递更多信息,如涉及作品内容、版权等问题,可联系本站删除,谢谢。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/551083.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

cordova 更改app版本_【ios马甲包cps联运】App上架难 马甲包不知道该怎么做?

专业app代上架!解决全网IOS上包难诸多问题 ,提供多类别马甲包功能包定制服务!(直播.财务.社交.生活.游戏.电商)另外提供app加速审核及好评优化服务.长期出售白包功能包!总的来说,App Store 的上架流程,主要分为 7 大步骤:1、创建证…

须使用visual c 内联汇编语言开发,在VisualC 中使用内联汇编

在VisualC 中使用内联汇编2008-04-09 04:08:57来源:互联网 阅读 ()一、内联汇编的优缺点因为在Visual C 中使用内联汇编不需要额外的编译器和联接器,且可以处理Visual C 中不能处理的一些事情,而且可以使用在C/C 中的变量,所以非常…

dockerfile 修改文件权限_网易技术实践|Docker文件系统实战

在本文中,我们来实战构建一个Docker镜像,然后实例化容器,在Docker的生命周期中详细分析一下Docker的文件存储情况和DockerFile优化策略。在开始实战之前,我们先介绍一个概念,联合文件系统(Union File Syste…

stm32c语言写数码管定时器,使用TIM1产生1秒定时控制数码管显示0-9(STM32_10)

一、项目配置1、新建项目文件夹"TimSeg";2、通过Keil5创建新项目,保存在所创建的文件夹中(设项目名为pTimSeg),选择MCU芯片为"STM32F103ZE"(本程序使用的硬件为:STM32-PZ6806L开发板)3、在"TimSeg"…

for循环c语言流水灯,巧用数组与for循环为流水灯程序瘦身

数组——一种储存大量同性质数据的连续存储器空间a [6];b [] {2,4,8,3,6};c[6] {1,2,3,4,5,6};char d[6] "hello";以上方式均是数组创建的常用方式~数组是从…

java的map 使用string数组多了双引号_奥奥奥利给!!!再也不怕面试官问我String源码了!来吧...

简述字符串广泛应用 在 Java 编程中,在 Java 中字符串属于对象,Java 提供了String 类来创建和操作字符串。字符串缓冲区支持可变字符串。因为String对象是不可变的,因此可以共享它们。String类代表字符串,Java程序中的所有字符串字…

C 语言 运算符怎么使用,详解C++编程中运算符的使用

C的运算符十分丰富,使得C的运算十分灵活方便。例如把赋值号()也作为运算符处理,这样,abc4就是合法的表达式,这是与其他语言不同的。C提供了以下运算符:算术运算符(加) -(减) *(乘) /(除) %(整除求余) (自加) --(…

面积积分_袁颖妍:用定理积分求平面区域面积(有代表性的9个例题)

考研竞赛智慧e数学的广告:鸡汤所谓“理解”,所谓“智商”,本质上最终都归到"记忆",还有一点就是能够发现自己“记忆”中各个零散的知识点的关系。所谓“智商”高低的人,其实是强化这些“记忆”的能力的不同,…

字体选择_十分钟带你掌握精准选择字体的方法!

文章序言:上次记得有粉丝评论需要讲讲字体,今天就给大家带来一期关于,如何快速选择合适的字体的文章,帮助大家以后把字体用对,用好,用准。在讲这个字体的时候会结合实际的案例操作给大家讲解,这…

android自动生成cardview,学习使用Material Design控件(三)使用CardView实现卡片效果...

本文主要介绍CardView的使用,CardView是继承自FrameLayout,使用比较简单,只需要用CardView包含其他View就可以实现卡片效果了。实现效果如下:加入依赖库dependencies {….compile com.android.support:cardview-v7:22.2.0}Layout布…

android最新设计规范,Android应用未来的设计规范

谷歌在2014 I/O大会上不但发布了Android L,还一同推出了全新的Material Design设计语言,它被认为是未来Android系统和应用的设计方向。虽然Android L和谷歌自家的应用都会按照这一设计规范来执行,但第三方应用却没能够积极的响应。究竟用Mate…

移除apt源_apt提示处理归档 (--unpack)时出错的解决办法

#apt##Ubuntu##Debian#1、问题现象今天在升级软件的时候遇到一个错误,如下:rootx:~# apt --fix-broken install正在读取软件包列表... 完成正在分析软件包的依赖关系树 正在读取状态信息... 完成 正在修复依赖关系... 完成下列软件包是自动安装的并且现…

android 滑动接听源码,android仿摩拜单车APP、炫酷RecyclerView、卡片滑动、仿饿了么点餐、自定义索引等源码...

Android精选源码Android优质博客前言permissions4m 最初的设计是仅仅做成一个编译器注解框架,在1.0.0版本时,它纯粹地实现了原生 Android 请求流程,关于它的设计思路可以查看这篇如何打造一个 Android 编译时注解框架。但是当投入笔者自己项目…

zip版mysql5.6_mysql 5.6 压缩包版安装方法

Mysql安装的时候可以有msi安装和zip解压缩两种安装方式。zip压缩包解压到目录,要使用它还需对它进行一定的配置。下面对Mysql压缩包版的安装方法进行详细的描述,要是此文有不正确的认识,希望大家指正,非常感谢。一、下载mysql压缩…

鸿蒙系统 产品,华为首款鸿蒙系统产品成行业公敌!只因开机无广告:遭十大品牌批评...

【4月6日讯】随着荣耀30s手机正式发布,全新的麒麟820处理器也是再次给我们带来了巨大惊喜,毫无疑问,麒麟820处理器将会继续继承麒麟810处理器的“神U”特质,成为5G网络时代的新一代中端“神U”,但在荣耀30s发布会上&am…

html在线摄像头,在HTML里加载摄像头的方法

效果图: 整体效果:视频加载:拍照:第一步:创建HTML元素首先,我们要创建一个HTML5的文档。无标题文档然后在插入以下代码:截图第二步:创建JavaScript首先,要在里创建一个JavaScript&am…

mysql怎样实现先判断后联合_MYSQ创建联合索引,字段的先后顺序,对查询的影响分析...

MYSQ创建联合索引,字段的先后顺序,对查询的影响分析前言对于联合索引我们知道,在使用的时候有一个最左前缀的原则,除了这些呢,比如字段放置的位置,会不会对索引的效率产生影响呢?最左匹配原则联…

上海事业编制 计算机 待遇怎么样,事业单位情况

2010-09-12我们在公路系统工作,用工单位是事业单位编制,由上级部门批准招录下达指标。由于单位缺人,单位临时招录我们(不带指标),我们已工作八年,自2003-2009一直签订合同,2009年到期后至今未签订合同&…

如何修改操作系统运行服务器,如何设置Bios 最常见bios设置与修改详细图解教程...

平时我们在使用计算机的时候一般很少会接触到BIOS,很多人都是在安装操作系统时才接触到的,因为在使用光盘安装系统时需将计算机的BIOS设置为从光驱启动,在重装系统、设置硬盘模式以及一些特殊情况都需要进入bios里面,进行相关设置…

mysql 回滚失败_Mysql非事务表回滚失败的现象

执行ROLLBACK(回滚)时,如果收到下述消息,表示事务中使用的1个或多个表不支持事务: 警告:某些更改的非事务性表不能被回滚。 这些非事务性表不受ROLLBACK语句的影响。 如果在事务中意外地混合了事务性表和非事务性表,导…