XL-LightHouse 与 Flink 和 ClickHouse 流式大数据统计系统

一个Flink任务只能并行处理一个或少数几个数据流,而XL-LightHouse一个任务可以并行处理数万个、几十万个数据流;

一个Flink任务只能实现一个或少数几个数据指标,而XL-LightHouse单个任务就能支撑大批量、数以万计的数据指标。

1、XL-LightHouse :

  •  1、再也不需要用 Flink、Spark、ClickHouse 或者基于 Redis 这种臃肿笨重的方案跑数了;
  •  2、再也不需要疲于应付对个人价值提升没有多大益处的数据统计需求了,能够帮助您从琐碎反复的数据统计需求中抽身出来,从而专注于对个人提升、对企业发展更有价值的事情;
  •  3、轻松帮您实现任意细粒度的监控指标,是您监控服务运行状况,排查各类业务数据波动、指标异常类问题的好帮手;
  •  4、培养数据思维,辅助您将所从事的工作建立数据指标体系,量化工作产出,做专业严谨的职场人,创造更大的个人价值;

2、流式统计虽然是属于流式计算的一种计算形式

        流式统计无外乎Count运算、Sum运算、Bitcount运算(count distinct)、Max运算、Min运算、Avg运算、Seq运算(时序数据)、Dimens运算(维度划分)、Limit运算(topN/lastN)

3、Flink用于流式统计存在缺陷

3-1、资源利用率低

Flink的资源利用率低要从两个角度来看,一个是集群运行的拓扑结构,另一个是Flink任务执行的特性。

3-2、运算性能低

3-3、接入成本较高

(1)、Flink面向专业的大数据研发人员,大量统计指标的实现需要耗费大量的研发成本。
(2)、由于Flink自身在流式统计领域的基础功能并不完善,所以很多场景下都需要研发人员依据统计任务的数据量、统计周期的粒度、数据倾斜状况等因素进行特定的优化。所以使用Flink实现很多相类似的功能,由于数据量差异、统计周期的不同,程序的实现方式也可能截然不同

3-4、运维成本高、运算资源成本高

对比XL-LightHouse,Flink的运维成本更高,体现在几个方面:
(1)、实现相同的流式统计需求,Flink集群规模要明显大于XL-LightHouse的集群规模,导致运维成本增加。
(2)、由于Flink集群面向专业的研发人员,Flink集群的运转是由集群维护人员和Flink任务的研发人员共同参与,如果集群要进行版本升级、集群扩容、日常维护、数据迁移等操作均需要与研发人员事先沟通、达成默契,很多类似版本升级的操作会涉及相关任务的升级改造。如果集群规模庞大、涉及研发人员、相关任务较多的话,那这个过程也必然会耗费了较大的维护成本

4、ClickHouse用于流式统计存在缺陷

  • ClickHouse适用场景的特点
    (1)单个或较少数量的应用场景,且每个应用场景都有海量的数据;
    (2)业务场景有大量的维度字段,可能需要按照十几个甚至几十个以上的维度随意组合进行多维度即席查询操作;
    (3)业务场景有明细查询的需求;
    (4)不同数据源之间可能有join查询的需求;

  • ClickHouse的缺点
    (1)由于每次查询都需要遍历海量数据,所以并发度支持有限;
    (2)由于系统内存储着海量的明细数据,集群规模庞大、结构复杂,维护成本高昂;
    (3)每次查询都要遍历数据,进行实时统计运算,需要耗费的大量的内存和CPU资源;
    (4)数据接入需要进行各种层面的优化,使用门槛较高、面向专业的大数据研发人员使用;
    (5)接入成本高、维护成本高、服务器成本高,使用门槛高,对中小企业不太友好;

5、XL-LightHouse的特性

(1)可以支持高并发查询统计结果

(2)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

(3)不支持明细查询,如果想要支持明细查询需要借助于其他工具实现

6、应用场景统计

点击量:
1、每5分钟_点击量
2、每5分钟_各ICON_点击量
3、每小时_点击量
4、每小时_各ICON_点击量
5、每天_总点击量
6、每天_各Tab_总点击量
7、每天_各ICON_总点击量

点击UV:
1、每5分钟_点击UV
2、每小时_点击UV
3、每小时_各ICON_点击UV
4、每天_总点击UV
5、每天_各ICON_总点击UV

支付成功订单数据统计

订单量:
1、每10分钟_订单量
2、每10分钟_各商户_订单量
3、每10分钟_各省份_订单量
4、每10分钟_各城市_订单量
5、每小时_订单量
6、每天_订单量
7、每天_各商户_订单量
8、每天_各省份_订单量
9、每天_各城市_订单量
10、每天_各价格区间_订单量
11、每天_各应用场景_订单量

交易金额:
1、每10分钟_成交金额
2、每10分钟_各商户_成交金额top100
3、每10分钟_各省份_成交金额
4、每10分钟_各城市_成交金额
5、每小时_成交金额
6、每小时_各商户_成交金额
7、每天_成交金额
8、每天_各商户_成交金额
9、每天_各省份_成交金额
10、每天_各城市_成交金额
11、每天_各应用场景_成交金额

下单用户数:
1、每10分钟_下单用户数
2、每10分钟_各商户_下单用户数
3、每10分钟_各省份_下单用户数
4、每10分钟_各城市_下单用户数
5、每小时_下单用户数
6、每天_下单用户数
7、每天_各商户_下单用户数
8、每天_各省份_下单用户数
9、每天_各城市_下单用户数
10、每天_各价格区间_下单用户数
11、每天_各应用场景_下单用户数

  • 资讯类场景使用演示 dtstep.com/archives/4262.html
  • 电商类场景使用演示 dtstep.com/archives/4286.html
  • 即时通讯类场景使用演示 dtstep.com/archives/4291.html
  • 技术类场景使用演示 dtstep.com/archives/4298.html

项目地址:

https://github.com/xl-xueling/xl-lighthouse

https://github.com/xl-xueling/xl-lighthouse.git

https://gitee.com/mirrors/XL-LightHouse.git

参考文档:

1、项目介绍
  • dtstep.com/archives/4455.html
2、Git地址
  • https://github.com/xl-xueling/xl-lighthouse.git
  • xl-lighthouse: XL-LightHouse是一套支持大数据量、支持超高并发的通用型流式大数据统计平台,常见的应用场景比如:PV、UV统计,电商销售额统计、日志数据统计、接口调用量、耗时情况等统计,支持多维度统计,支持各种复杂的条件筛选和逻辑判断,一键部署,一行代码接入,轻松实现各种海量数据实时统计,帮助企业以更低的成本快速搭建起数据指标体系,是企业降本增效的好帮手!
3、交流社区
  • DTStep
4、项目设计
  • dtstep.com/archives/4227.html
5、一键部署
  • dtstep.com/archives/4257.html
6、XL-Formula使用
  • dtstep.com/archives/4215.html
7、Web服务操作说明
  • dtstep.com/archives/4233.html
8、Hello World
  • dtstep.com/archives/4301.html
9、适用场景
  • 资讯类场景使用演示 dtstep.com/archives/4262.html
  • 电商类场景使用演示 dtstep.com/archives/4286.html
  • 即时通讯类场景使用演示 dtstep.com/archives/4291.html
  • 技术类场景使用演示 dtstep.com/archives/4298.html
10、版权声明
  • dtstep.com/archives/4206.html
11、使用反馈
  • dtstep.com/community/ldp-issue
12、依赖组件
  • dtstep.com/archives/4445.html

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/77788.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

预测多基因扰动的转录结果

了解细胞对基因扰动的反应是许多生物医学应用的核心,从识别癌症中涉及的基因相互作用到开发再生医学方法。然而,可能的多基因扰动数量的组合爆炸严重限制了实验验证。在这里,作者提出了图增强的基因激活和抑制模拟器(GEARS&#x…

06-mq

1、消息队列有什么优点和缺点? 优点: 解耦、异步、削峰填谷。 缺点: 系统可用性降低 系统复杂性提高 一致性问题 2、常见消息队列的比较 3、Kafka的特性 1.消息持久化 2.高吞吐量 3.扩展性强(动态)4集群+4台集群…

硬件【10】运放-1-理想运放与虚断虚短的来源

1 概述 今天开始,聊一聊运放吧,之前很多兄弟们也提了这个要求。正好我最近也想深入看看运放方面的,那么就借这个机会一步一步再搞一搞吧。 运放这个器件相对于电阻,电容,三极管,MOS管等器件算是比较复杂的…

Docker进阶:Docker Compose(容器编排) 管理多容器应用—实战案例演示

Docker进阶:Docker Compose(容器编排) 管理多容器应用—实战案例演示 一、Docker Compose简介二、Docker Compose安装三、Docker Compose卸载四、Docker Compose核心概念4.1、一文件原则(docker-compose.yml)4.2、服务…

vue交互

目录 交互 指有人参与的,程序并非按照一定的顺序去执行,可以人为介入,让程序或应用去根据输入选择执行流程,提供给我们需要的信息。 前、后端 前端:指客户端,浏览器 用户可以直接看到、操作,可…

【大数据之Kafka】十二、Kafka之offset位移及漏消费和重复消费

1 offset的默认维护位置 Kafka0.9版本之前, consumer默认将offset保存在Zookeeper中。从0.9版本开始,consumer默认将offset保存在Kafka一个内置的topic中,该topic为 consumer_offsets。   consumer_offsets 主题里面采用 key 和 value 的方…

【网络教程】记一次使用Docker手动搭建BT宝塔面板的全过程(包含问题解决如:宝塔面板无法开启防火墙,ssh,nginx等)

文章目录 准备安装安装宝塔面板开启ssh和修改ssh的密码导出镜像问题解决宝塔面板无法开启防火墙无法启动ssh设置密码nginx安装失败设置开机启动相关服务准备 演示的系统环境:Ubuntu 22.04.3 LTS更新安装/升级docker到最新版本升级docker相关命令如下# 更新软件包列表并自动升级…

TypeScript断言

什么是断言? 一个编译时语法,用于告诉编译器用户比编译器更加确定变量的类型,进而解除编译错误,类型断言有点类似于其他语言的类型转换,但它没有运行时的影响,只是在编译阶段起作用。所以,即使通…

用Navicat备份Mysql演示系统数据库的时候出:Too Many Connections

今天用Navicat进行数据备份的时候,发现由于数据库连接数目过多导致连接锁定,这种情况在多人协同开发的场景中很常见。当然我这里也因为多个应用使用了数据库连接,所以出现了Too Many Connections。 可能是超过最大连接数了。 1、进入Navicat…

【nosql】redis之高可用(主从复制、哨兵、集群)搭建

redis群集有三种模式 redis群集有三种模式,分别是主从同步/复制、哨兵模式、Cluster集群,下面会讲解一下三种模式的工作方式,以及如何搭建cluster群集 ●主从复制:主从复制是高可用Redis的基础,哨兵和集群都是在主从…

学习笔记|定时器|STC中断|定时器时间计算|STC32G单片机视频开发教程(冲哥)|第十一集:定时器的作用和意义

文章目录 1.定时器的作用和意义定时器中断定时器是定时器和计数器的统称。 2.STC32G单片机定时器使用原理2.1 先设置功能为定时器/计数器(本质都是加法计数器)2.2、在定时器模式下,设置不分频或者12分频∶Tips:选择不分频还是12分频2.3、定时器的工作模式…

【腾讯云Cloud Studio实战训练营】戏说cloud studio

文章目录 前言产品概述项目体验登录空间模板模板项目体验 总结 前言 在奇幻世界中,存在着一片神秘的云海,被人们称为腾讯云云端开发环境 Cloud Studio。这片云海是一座巨大的浮岛,上面漂浮着一个集成式开发环境(Integrated Devel…

自动化测试入门知识 —— 数据驱动测试

一、什么是数据驱动测试? 数据驱动测试是一种测试方法,它的核心思想是通过不同的测试数据来验证同一个测试逻辑。通常情况下,测试用例中的输入数据和预期结果会被提取出来,以便可以通过不同的测试数据进行重复执行。 数据驱动测…

分享一个复合故障数据集

复合故障数据集 1.本数据集采集了轴承从正常状态到故障状态的振动信号, 包含失效的原因:内圈磨损,保持架断裂,外圈磨损和外圈裂损。其中有单一类型故障、单一故障组合的复合故障等多种失效形式,可用于诊断滚动轴承早期…

飞行动力学 - 第22节-动稳定性与运动方程 之 基础点摘要

飞行动力学 - 第22节-动稳定性与运动方程 之 基础点摘要 1. 稳定性定义2. 动稳定性示意图3. 数值仿真结构框图4. 运动响应类型5. 参考资料 1. 稳定性定义 飞机在平衡状态(静止或匀速运动)受到扰动: 有回到初始状态的趋势;静稳定…

微信怎么定时发圈?

定时发圈的妙用 在合适的时间点发布新的产品、促销活动,不仅能够及时提醒用户品牌的存在,还可以引发用户的兴趣,增加品牌的曝光率。 选择最佳的发朋友圈时间段,以确保推广内容得到最大的曝光和关注,提高广告投放的效果…

录音怎么转换成mp3格式?支持二十多种格式

录音怎么转换成mp3格式?在我们的日常生活和工作中,录音是一项非常有用的工具,随着手机以及录音设备越来越普及化,让录音这件事情变得非常的简单,录音可以帮助我们解决非常多的事情。例如通过录音,我们可以记…

Redis十大数据类型

✅作者简介:大家好,我是Leo,热爱Java后端开发者,一个想要与大家共同进步的男人😉😉 🍎个人主页:Leo的博客 💞当前专栏: Java从入门到精通 ✨特色专栏&#xf…

无涯教程-JavaScript - CUMIPMT函数

描述 CUMIPMT函数返回start_period和end_period之间的贷款累计利息。 语法 CUMIPMT (rate, nper, pv, start_period, end_period, type)争论 Argument描述Required/OptionalRateThe interest rate.RequiredNperThe total number of payment periods.RequiredPvThe present …

SpringBoot原理-自动配置-概述

自动配置 SpringBoot的自动配置就是当Spring容器启动后,一些配置类、bean对象就会自动存入IOC容器中,不需要我们手动去声明,从而简化了开发,省去了繁琐的配置操作。启动一个SpringBoot项目后,观察如下