clickhouse hadoop_大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析...

本篇文章探讨了大数据分析之解决Hadoop的短板,实时大数据分析引擎ClickHouse解析,希望阅读本篇文章以后大家有所收获,帮助大家对相关内容的理解更加深入。

一、背景

提到大数据不得不提Hadoop,当下的Hadoop已不仅仅是当初的HDFS + MR(MapReduce)这么简单。基于Hadoop而衍生的Hive、Pig、Spark、Presto、Impala等一系列组件共同构成了Hadoop生态体系。Hadoop生态为今天的大数据领域提供着稳定可靠的数据服务。

Hadoop生态体系解决了大数据界的大部分问题,当然其也存在缺点。Hadoop体系的最大短板在于数据处理时效性。基于Hadoop生态的数据处理场景大部分对时效要求不高,按照传统的做法一般是 T + 1 的数据时效。即 Trade + 1,数据产出在交易日 + 1 天。

ClickHouse的产生就是为了解决大数据量处理的时效性。>>>>二、概述

Clickhouse,专为在线数据分析而设计。官方提供的文档表明,ClickHouse 日处理记录数“十亿级”。

1.特性采用列式存储

数据压缩

基于磁盘的存储,大部分列式存储数据库为了追求速度,会将数据直接写入内存,按时内存的空间往往很小

CPU利用率高,在计算时会使用机器上的所有CPU资源

支持分片,并且同一个计算任务会在不同分片上并行执行,计算完成后会将结果汇总

支持SQL,SQL几乎成了大数据的标准工具,使用门槛较低

支持联表查询

支持实时更新

自动多副本同步

支持索引

分布式存储查询

2.性能

根据官方提供的数据,性能表现大致如下:低延迟:对于数据量(几千行,列不是很多)不是很大的短查询,如果数据已经被载入缓存,且使用主码,延迟在50MS左右

并发量:虽然ClickHouse是一种在线分析型数据库,也可支持一定的并发。当单个查询比较短时,官方建议100 Queries / second

写入速度:在使用MergeTree引擎的情况下,写入速度大概是50 - 200M / s,如果按照1 K一条记录来算,大约每秒可写入50000 ~ 200000条记录每秒。如果每条记录比较小的话写入速度会更快

3.接口对外提供Http,JDBC两种接口方式

对内各模块间使用TCP连接通信

4.与Hadoop的区别Hadoop体系是一种离线系统,一般很难支持即席查询。ClickHouse可以支持即席查询

Hadoop体系一般不支持实时更新,都采用批量更新和写入。ClickHouse支持实时数据更新

Hadoop体系一般采用行记录存储,数据查询需要扫描所有列,当表很宽时会扫描很多用不到的列。ClickHouse是列式存储,查询只需要加载相关的列。>>>>三、引擎

Clickhouse提供了丰富的存储引擎,存储引擎的类型决定了数据如何存放、如何做备份、如何被检索、是否使用索引。不同的存储引擎在数据写入/检索方面做平衡,以满足不同业务需求。

本文由职坐标整理发布,学习更多的相关知识,请关注职坐标IT知识库!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/245499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

微信无法连接到服务器(110087)),110087无法连接网络是什么意思

手机在使用的时候提示110087无法连接网络则说明手机此时无法连接网络是不能上网的,而手机不能上网的原因也是多方面的,找到手机不能上网的原因才能更好的解决问题。首先,可能是手机有短信或者电话正在进入,因此很多手机在该情况下…

手机安装python的步骤_小白入门:Python安装的10个步骤,极其细致!!

(2)3.X.X需要下载windows XXX executable installer4. 下载完成后打开(1)勾选Add Python 3.6 to PATH是把Python的安装路径添加到系统环境变量的Path变量中(2)选择Customize installation可自定义路径5 . 这一步默认全选,然后点击next6. 这一步要勾选上Install for …

pandas 每一列相加_Python数据分析——Pandas 教程(上)

Python 在数据分析领域里是一门非常强大的语言,在数据分析方面有着出色的生态系统。Pandas 包就是其中之一,它的主要特点是导入和分析数据非常的容易,Pandas 类似 Numpy、Matplotlib,提供了单一且方便的方式来处理数据分析和形象化…

ajax刷新iframe页面,通过iframe实现简单的ajax表单提交

之前做项目都是用现成的jquery插件实现表单的校验以及ajax提交,但是今天有个简单的头像图片ajax上传,以及一个很简单的表单提交,实在不想引入一个插件了,本着代码量最小,最简单的原则,照着豆瓣照抄了一个&a…

java跟python对比_【多年的Java程序员总结Java与Python的对比 】

多年的Java程序员总结Java与Python的对比作为一个有多年职场经验的技术员,每当我遇到同行时,我都会问一句“你现在用的是什么语言?你喜欢用哪种语言?”至于答案,容后再说。但统计过后,以Java和Python为多&a…

rs485全双工中只接一组_RS485通讯的正确接线方式

RS485通讯的正确接线方式RS485理想用线为双绞线:半双工的两线最好用双绞线中的一对,这样两线双绞,加在两线上的干扰电平抵消实现抗干扰效果。全双工时接收两线用一对,发送两线用另一对。RS485没有功率传输要求,所以对线…

bat文件设置dns服务器,.bat文件设置IP、DNS

这几天遇到个烦心事,每次开机之后都要去手动去设置一下IP地址,一大串的数字还是有点麻烦,于是就想写个批处理文件设置IP注意:在DOS下设置IP时需要管理员权限运行1.查看机子设置IP需要用到的名字名字是Ethernet2.查看机子在DOS下设…

cv2 画多边形不填充_你不知道的4种方法:python方法绘制扇形

1 说明:1.1 是问答中的我的一个回答。1.1 因为问答中没有代码块的,所以我改为这里写文章,然后链接过去。1.2 4种方法:turtle法、OpenCV法、pygame法和matplotlib法。2 turtle法:2.1 代码:#第1步&#xff1a…

不同角色进入使用不同功能_如何在不同页面上使用不同的Joomla CSS

简介: 我们的一位用户希望其网站首页具有不同的背景。 Joomla确实提供了几种自定义单个页面的方法。本教程将向您介绍两个Joomla选项。让我们开始吧 ...我们的一位用户希望其网站首页具有不同的背景。 Joomla确实提供了几种自定义单个页面的方法。本教程将向您介绍两…

emc文件存储服务器,emc存储怎么挂在linux服务器上

emc存储怎么挂在linux服务器上 内容精选换一换安装传输工具在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云服务器。例如QQ.exe。在本地主机和Windows云服务器上分别安装数据传输工具,将文件上传到云服务器。例如QQ.exe。本地磁盘映射…

如何在excel中判断某一点在某一区域内_SEM优化师常用的Excel表格函数集合

在竞价优化中如何用最短时间又高效的完成工作呢?其实是有技巧的,今天给大家分享一篇能够帮助竞价员高效快速的完成工作的一些工具,如果感觉有用就赶快收藏吧!EXCEL使用技能1. 数据透视表▲ 功能:它是excel中的一项功能…

前后端分离session_前后端分离:基于JWT用户认证分析

作者:lion1ouhttps://lion1ou.win/2017/01/18/在前后端分离开发时为什么需要用户认证呢?原因是由于HTTP协定是不储存状态的(stateless),这意味着当我们透过帐号密码验证一个使用者时,当下一个request请求时它就把刚刚的资料忘了。…

我的世界服务器开启显示坐标的指令,我的世界坐标怎么看 坐标指令

在我的世界游戏中,坐标这个问题如果玩的很6的话能够帮助我们瞬间移动,去到任何想去的地方,这时有不少玩家不禁想问了,我的世界坐标怎么看,坐标指令又是什么呢?坐标(coordinates)在数字上反映了您在主世界中…

扑克牌图片一张一张_培养孩子的数学力,不妨试试这五个扑克牌游戏

宝宝的数学认知会随着年龄的增长而逐渐增强,3-4岁的宝宝能感知和区分物体的大小、多少等量方面的特点;4-5岁的宝宝能理解数与数之间的关系;5-6岁的宝宝能够理解加和减的实际意义,并进行10以内的加减运算。而扑克牌是家中常备的娱乐…

三十二楼层选几层最好_买房楼层怎么选?建筑学家建议:一栋楼不管几层,最好避开这3层...

对于很多人买房,可以说是一生最重要的事情之一。大部分人买房都可能和自己的家人居住一生,特别是现在房价那么高的情况下,买了房如果不如意的话,想再换房可就非常难了。特别是楼层的选择,很多人都不会选择楼层&#xf…

服务器文件相对路径,服务器文件的相对路径

服务器文件的相对路径 内容精选换一换编译构建服务提供了常用的构建模板(构建环境),不同的构建模板中预装了对应构建所需工具集,MSBuild构建镜像一般预装了msbuild、nuget、.NET Frameword等常用工具。使用msbuild构建工具执行引擎、构造工程&#xff0c…

每天九点十分开始每半小时一次执行一个cron_每天通勤4小时!西咸双城生活的上班族,不简单...

在西安,你每天上班路上花费多长时间?大多数人的答案可能都在一个小时之间。然而,在西安,有一群辗转于西安和咸阳两座城市的上班族,他们平均每天早上六点出门,晚上八点回家,在公交、地铁、电动车…

时间设置偏移秒_零偏移有源低通滤波器,第2部分

本系列文章分为4个部分,分别讨论了:使用Sallen-Key有源滤波器时应避免的陷阱、Sallen-Key低通滤波器所建议的补救措施、接近零偏移的Chebyshev低通滤波器,以及采纳网友建议所带来的不利后果。 本系列文章的第1部分解决了使用Sallen-Key有源滤…

线程与进程的区别_Java线程和PC进程的区别

进程和线程的区别进程:资源分配的基本单位,多存在于操作系统任务中线程:资源调度的基本单位,一般存在于某个程序中JVM主内存与工作内存间具体的交互A:作用范围主内存变量B:作用范围工作内存变量lock(锁定)A…

linux nand 坏块_Nand Flash 中的坏块(Bad Block)

Nand Flash 中,一个块中含有 1 个或多个位是坏的,就称为其为坏块 Bad Block。坏块的稳定性是无法保证的,也就是说,不能保证你写入的数据是对的,或者写入对了,读出来也不一定对的。与此对应的正常的块,肯定是写入读出都是正常的。坏块有两种:(1) 出厂时就有存在的坏块:一种是出厂…