druid.io 海量实时OLAP数据仓库 (翻译+总结) (1)

介绍

我是NDPmedia公司的大数据OLAP的资深高级工程师, 专注于OLAP领域, 现将一个成熟的可靠的高性能的海量实时OLAP数据仓库介绍给大家: druid.io

NDPmedia在2014年3月就开始使用, 见链接: http://blog.csdn.net/chenyi8888/article/details/37594771

druid是个很新的平台, 2013年底才开源出来, 虽然出现的比较晚, 但druid发展很快, 中国有几个公司开始使用, 2015年druid将会是爆发的一年

最近druid 的华人作者Fangjin从Metamarkets离职, 专门从事druid研发和推广.

 

以下翻译自http://druid.io/docs/0.7.1.1/, 并添加了自己的注解

什么是Druid

Druid 是一个开源的,能在海量时序数据上 (万亿级别数据量, 1000 TB级别数据)上面提供实时分析查询的OLAP数据仓库,Druid提供了廉价的实时数据插入和任意数据探索的能力。
Druid的主要功能

    为分析而生 - Druid是为了解决在OLAP工作流中进行探索分析而生的. 它提供了大量的filters, aggregators和 query 类型,并且提供了一个用户添加新功能的框架. 用户可以利用Druid的集群实现例如topN和直方图等功能。
      (注: 传统数据库, 查询几千万的数据, 就会出问题, 查不出来)
      (注: druid就是一个能力超强的数据库, 执行例如SQL: select aColumn, bColumn sum(cColumn) from tableName where aColumn like 'xxx' and bColumn = 5 group by aColumn, bColumn having sum(cColumn) > 5 order by aColumn.)
      (注: druid对SQL支持有限,现在是实验版本。YeahMobi 重新开发适配了SQL, 屏蔽了下层平台, SQL 语句可以路由到这三个平台 druid, impala, hive)
    高交互式 - Druid的低延时数据插入允许数据在生成之后的毫秒范围之内就可以被用户查询到。Druid通过读取和扫描需要的数据来优化查询的延时。
    高可用性 - Druid可以被用来实现需要持续提供服务的SaaS应用。即使是在系统升级的过程中,你的数据仍然可以被查询。而且Druid 集群的扩容或者缩减不会带来数据的丢失。

       (注: 已经在生产环境之中验证: 添加字段, 集群扩容, 集群缩减)
    可扩展性 - 现有的Druid系统可以很轻松的处理每天数十亿条记录和TB级别的数据。Druid本身是被设计来解决PB级别数据的。

为什么要用Druid?

Druid的初衷是为了解决在使用Hadoop进行查询时所遇见的高延时问题来提高交互性查询。尤其是当你对数据进行汇总之后并在你汇总之后的数据上面进行查询时效果更好。将你汇总之后的数据插入Druid,随着你的数据量在不断增长,你仍然可以对Druid的查询能力非常有信心。当前的Druid安装实例已经可以很好的处理以每小时数TB实时递增的数据量。
(注: 在我们的实践中 druid 查询统计100亿数据, 在5秒内响应。 查询1个月的数据, 基本可以在毫秒内完成。 比hadoop的常用的T+1 Map Reduce 高效多了.

你可以在拥有Hadoop的同时创建一个Druid系统。Druid提供了以一种互动式切片、切块方式来访问数据的能力,它在查询的灵活性和存储格式直接寻找平衡从而来提供更好的查询速度。
如果想了解更多细节,请参考 White Paper 和Design 文档.

什么情况下需要Druid?

    当你需要在大数据集上面进行快速的,交互式的查询时
    当你需要进行特殊的数据分析,而不只是简单的键值对存储时
    当你拥有大量的数据时 (每天新增数百亿的记录、每天新增数十TB的数据)
    当你想要分析实时产生的数据时
    当你需要一个24x7x365无时无刻不可用的数据存储时

架构概述

   druid在一定程度上是受搜索框架的启发, 通过建立不变数据视图和使用便于filter和aggregation的高度优化的格式来提高性能. Druid 集群有一系列不同类型的节点组成, 每种节点将一小部分事情做到极致。

Druid vs…   

    Druid-vs-Impala-or-Shark
    Druid-vs-Redshift
    Druid-vs-Vertica
    Druid-vs-Cassandra
    Druid-vs-Hadoop
    Druid-vs-Spark
    Druid-vs-Elasticsearch
    
    数据框架世界一直在巨大的混乱的变化之中, 这个网页希望帮助潜在的用户评估和确定druid适合用户解决遇到的问题。 如果有错误请通过邮件列表或者其他渠道反馈.

转载于:https://www.cnblogs.com/lpthread/p/4519687.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/431786.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

oracle数据库的浮点数,Oracle Float类型

本篇文章帮大家学习Oracle Float类型,包含了Oracle Float类型使用方法、操作技巧、实例演示和注意事项,有一定的学习价值,大家可以用来参考。本教程将向您介绍Oracle FLOAT数据类型,并演示如何将FLOAT类型应用于表定义浮点数的字段…

求合体电脑版_网红界宋祖儿找年轻版言承旭当男友,一张合照收割大量cp粉?!...

下面这组情侣写真,没有颜控能逃得过他们的狗粮。男生神似年轻版言承旭,女生像宋祖儿和章若楠的结合体。一组写真就秒到网友,几乎是全网求ID的程度。说到俊男美女的组合,这不是挖酱的业务范畴么?立马赶来给大家介绍一下…

什么影响oracle io,Oracle IO问题解析

3.2 数据文件相关的IO事件数据库系统中的大多数的IO请求都是针对数据文件的。因此大多数情况下,与数据文件相关的IO事件是引起系统IO性能的主要原因。这些事件也是我们文章需要重点介绍的事件。下面分别针对不同事件介绍问题的解决思路。3.2.1 db file sequential r…

Solarized ----vim配色方案

linux环境下成功 从csdn上下载文件,下载地址:http://download.csdn.net/detail/thisnameokbu/8728489 //切到相关目录 $cd vim-colors-solarized/colors //将solarized.vim移动到~/.vim/colors/下,如果~/.vim/下没有colors文件…

C++求复数的角度_人教A版高中数学必修二7.1 复数的概念优质课公开课课件、教案...

【新教材】7.1.1 数系的扩充和复数的概念 教学设计(人教A版)教材分析本节作为复数一章的开篇,主要包括数系概念的发展简介,数系的扩充,复数的相关概念、分类、相等条件,代数表示和几何意义.复数的引入是中学阶段数系的又一次扩充&…

oracle挂载到空闲进程,Oracle部分后台进程

1.PMON:后台进程负责在连接出现异常中止后进行清理工作PMON会回滚未提交的工作,释放锁,并释放之前为失败进程分配的SGA资源负责监视其它后台进程,并在必要时重启这些后台进程或适当的终止实例2.LREG:监听注册进程负责将数据库实例和服务注册到…

电脑屏保海底世界_炸弹测深出来的海底一万米,都藏有何种玄机?

近日,由中国科学院沈阳自动化研究所研制的“海斗一号”全海深自主遥控潜水器载誉归来,在马里亚纳海沟实现4次万米下潜,最大下潜深度10907米,刷新中国潜水器最大下潜深度纪录,众人赞叹“这是一个有‘深度’的潜水器&…

oracle自动撤销管理,Oracle 9i中自动撤销管理的优点分析

在Oracle9i中,Oracle对回滚段进行了重新命名,现在将其作为撤销日志。在传统的操作上,回滚段保存交换的撤销信息,直到系统发送一个响应或者回滚语句。人工撤销管理在Oracle9i仍然被使用,但绝大多数的Oracle DBAs都选择了…

ubuntu安装python_ubuntu18.04下源码编译安装最新版本Python3

原文链接:ubuntu18.04下源码编译安装最新版本Python3截止到2019年4月9日,Python3最新的版本是3.7.3。在ubuntu18.04中已经安装的Python3版本是3.6.7,下面我们就演示一下如何在ubuntu18.04下源码编译安装Python3.7.3,后续如果有更高…

基于Enterprise Library的Winform开发框架实现支持国产达梦数据库的扩展操作

由于一个客户朋友的需求,需要我的Winform开发框架支持国产达梦数据库的操作,这个数据库很早就听过,但是真正一般项目用的很少,一般在一些特殊的项目可能需要用到。由于我的Winform开发框架,是基于Enterprise Library的…

oracle经纬度换算成xy坐标,xy坐标转换经纬度【处置步骤】

很多小伙伴都遇到过xy坐标转换经纬度的困惑吧,一些朋友看过网上零散的xy坐标转换经纬度的处理方法,并没有完完全全明白xy坐标转换经纬度是如何解决的,今天小编准备了简单的解决办法,只需要按照1:一、直角坐标转经纬度(…

零基础不建议学前端_web前端培训心得:零基础怎样学好web前端

转行学web前端,这是不少人的选择,毕竟目前互联网行业受到了太多的关注,而很多人纷纷需要向互联网方面转型。而谈到转型,web前端无疑是很多人的选择,这是因为web前端属于可见即可得的编程语言,写出来就能看到…

关于使用Transaction对于非数据库事务的操作

在操作数据库的过程中,为了数据的一致性,我们可以使用Transaction,要么成功的时候全部提交,要么有任何一个操作失败立即全部回滚。不仅仅是在数据库方面,有时候操作其他的内容,比如说对于系统文件的操作&am…

php 判断修改成功,PHP判断文件是否被修改实例

在网站的管理系统中,有时需要查看某个文件是否被修改过、在什么时间被修改的、最后的修改时间是什么时候,本实例就可以实现这个功能,对表单中提交的文件进行判断,检测出修改时间。关键技术本实例主要应用filectime()和filemtime()…

nginx管理面板_吸塑包装自建网站上线,阿里云ecs+bt面板+WordPress

吸塑包装网站搭建是我经过对比了织梦dede、帝国和WordPress后选择了WordPress,从本地搭建的apache搬迁到阿里云ecs服务器。第一步,为了后期多网站的管理,安装了宝塔面板,做了域名解析。第二步,备份所有文件和数据库。在…

linux下c 编译脚本,Linux下编译C语言与makefile脚本语言

GCC1.Source CRT 软件:可以控制linux的终端。2.FileZilla 软件: windows 远程传文件到linux.使用sourceinsight 文本编辑器一linux编译过程:C语言编译器gcc 预处理指令-E ,汇编指令-s ,编译指令 -c , 链接指…

Teamwork(The sixth day of the team)

每日列会过后,我们的工作进度都有所进展了,好开心,但是还不是我们想要的,我们想做得更快,更好。 转载于:https://www.cnblogs.com/Lingchao/p/4535939.html

微软的平板电脑_Microsoft 微软 Surface Go 2 10.5英寸二合一平板电脑(m3-8100Y、8GB、128GB、LTE) 5788元...

Microsoft 微软 Surface Go 2 英寸二合一平板电脑(m3-8100Y、8GB、128GB、LTE)【PConline 聚超值】Surface Go 2是一款主打便携的二合一产品,外观上与上代产品相比,屏幕尺寸提升为英寸,屏幕分辨率从1800*1200 增加到 1920*1280,由…

linux刷命令脚本,linux – 如何调试bash脚本并获得每个命令的执行时间

这是尽可能接近内置bash调试工具的答案,因为它从脚本执行开始时间提供了整体时序信息.在脚本的顶部添加此项以进行第二次计数:export PS4[${SECONDS}s][${BASH_SOURCE}:${LINENO}]: ${FUNCNAME[0]:${FUNCNAME[0]}(): }; set -x;相同,但用毫秒代替:Ndate …

指定查询条件,查询对应的集合List(单表)

TestDao.java(测试类) Test public void findCollectionByConditionNoPage(){ ApplicationContext ac new ClassPathXmlApplicationContext("beans.xml"); IElecTextService elecTextService (IElecTextService) ac.getBean(IElecTextServ…