智简云携手云器Lakehouse打造一体化大数据平台,释放数据价值

导读

本篇分享的是智简云使用云器Lakehouse升级数据平台的实践总结。

智简云,是一家拥有十余年历史的科技公司,专注于企业服务领域,开发了两款核心产品:基于PASS平台的客户关系管理(CRM)系统和为中小型用户量身定制的软件即服务(SaaS)平台。近年来,智简云的SaaS平台业务发展迅猛,尤其是在2021年获得GGV资本的战略性投资后,公司在市场推广和产品研发方面投入了大量资源,实现了跨越式增长。

作为一家服务数百家客户、积累亿级会员数据的SaaS企业,智简云利用云器Lakehouse实现了数据平台的架构简化、性能提升和成本优化。同时,云器独特的“数据钱包”功能,为智简云打造了一种安全、高效、灵活的数据共享新方式。以可控的数据管理机制,让企业在SaaS平台上的自有数据可以安全回流使用,发挥数据的价值。

图片

智简云使用云器Lakehouse的实践

亿级会员数据带来的机遇与挑战

智简云SaaS平台积累的亿级会员数据,蕴藏着巨大的商业价值。通过对这些数据的分析,智简云可以深入了解用户行为、偏好和需求,从而:

  • 精准营销: 根据用户画像和行为数据,进行精准的营销推广,提高转化率和ROI。

  • 提升用户体验: 通过数据分析,了解用户痛点和需求,优化产品功能和服务,提升用户满意度。

  • 优化产品服务: 根据用户反馈和数据分析,不断改进产品和服务,提升市场竞争力。

然而,海量数据的处理也带来了巨大的挑战:

  • 数据存储和管理: 亿级数据需要巨大的存储空间和高效的管理工具。

  • 数据处理效率: 传统的数据库和数据处理工具无法满足海量数据的处理需求,导致分析效率低下。

  • 数据分析能力: 需要强大的数据分析工具和算法,才能从海量数据中挖掘出有价值的信息。

  • 数据应用服务能力:智简云的用户在平台上积累了大量的数据,有分析和应用的需求,智简云作为SaaS平台工具需要更好支持客户发挥数据价值。

图片

具体的,智简云还面临着一些特定的数据处理难题,包括:

架构复杂

起初采用了传统的Lambda架构来处理大数据问题,但该架构的复杂性要求我们整合多种开源工具,如Spark、Kafka、HDFS等。这些技术虽然应用广泛,但要将它们整合在一起,却是一项庞大的工程。Lambda架构通常包含实时处理层、批量处理层和服务层等多个层次,每一层都需要独立设计、开发和维护,这无疑增加了系统的复杂性和技术多样性。

开发运维复杂

架构的复杂性直接导致了开发和运维的复杂性。由于涉及多种技术和系统,运维和管理成本相对较高。一旦系统出现故障或需要性能优化,都会带来一系列复杂问题。尽管Lambda架构支持线性扩展,但实时层和批量层的独立扩展可能会在系统规模扩大时遇到瓶颈。

在这种情况下,需要专门的人才进行精细的管理和优化。然而,我们的核心关注点在于应用开发,如果过多地投入精力处理这些问题,将导致资源成本大幅增加。此外,数据接入和ETL(Extract, Transform, Load)处理架构的复杂性也带来了额外的挑战。

客户数据复杂

CRM系统处理的数据非常复杂,包括会员数据、消费数据以及与商城相关的行为数据,这些数据大多来源于客户的ERP系统。尽管我们提供了接口,但某些数据的实时性和大量数据的处理需求要求我们直接从客户的数据库中抓取数据。客户的数据库类型多样,常见的有Oracle、PostgreSQL、MySQL等,这增加了研发成本。此外,每个客户的业务系统各不相同,数据抽取和转换过程也较为复杂。需要将每家客户独特的原始数据结构抽象化,以便于分析,这就需要成熟的数据抽取转换程序。

成本高

  • 开发维护成本高,服务器成本高(至少五台高配主机)。

  • 资源浪费: 数据处理任务存在高峰和低谷,导致资源浪费。

  • 数据研发成本: CRM数据复杂,来自不同ERP系统,数据库多样性增加研发成本。

图片

解决方案的选型思考

面对日益增长的数据量和日趋复杂的业务需求,智简云意识到,选择一个合适的大数据平台至关重要。为了解决现有痛点并满足未来发展需求,智简云经过深思熟虑,制定了以下几个关键的选型指标:

  • 一体化架构:告别繁琐的Lambda架构,寻求一个一体化的大数据平台,简化数据处理流程,降低系统复杂性和技术多样性。

  • 性能达标:平台必须具备强大的数据处理能力,能够高效地进行查询分析和跑批任务,满足海量数据的处理需求。

  • 弹性伸缩:平台需要具备弹性伸缩能力,能够根据数据量和计算需求动态调整资源,应对业务高峰期和大促活动。

  • 云原生服务:优先选择云原生服务,避免私有部署带来的运维难题,降低运维成本,提高资源利用率。

  • 数据安全: 平台必须具备完善的数据安全保障机制,确保会员数据的安全性和隐私性,满足合规要求。

所选的大数据平台必须具备一体化架构,能够满足大数据处理的性能要求,具备弹性伸缩能力,并且是云原生服务。此外,数据安全也是我们的重要考量因素,因为我们处理的会员数据涉及隐私和商业机密,必须确保数据安全。在市场上寻找满足这些条件的产品发现云器 Lakehouse 完全符合我们的指标。

图片

云器@智简云架构

云器Lakehouse的一体化架构能够替代之前使用的多个复杂开源工具,提供界面化的配置,简化了底层管理,支持弹性伸缩,并确保了数据安全。

公司与云器合作设计了基于云器的数据架构,其中包括:

智简业务系统

使用MongoDB和PostgreSQL数据库,并通过Flink CDC技术实现数据的实时接入和异步批量导入。

云器产品模块

在云器Studio中进行数据加工分析,生成可应用的数据模型,支撑整个业务流程。

多数据源适配&可配置抽取任务

我们深入使用了云器的多数据源适配功能,并配置了每日运行的抽取任务。

图片

数据进仓

数据集成&数据ETL加工

数据进入仓库后,对其进行加工,利用云器的ETL调度和数据质量监控工具,大大降低了数据管理和开发的复杂性。这使得我们的开发资源得以释放,可以更专注于业务应用开发,实现了降本增效。云器的增量计算和实时数据处理能力也满足了我们业务上的准实时需求。

调度运维&数据质量监控

云器的调度运维工具能够监控异常任务并发出警报,确保我们能够在客户察觉问题之前及时处理。

图片

数据应用

数据应用方面的典型的应用场景:

  • 会员洞察

  • 会员标签

  • 智能营销

  • 数据分享

图片

会员洞察

会员洞察涉及对会员数据的全生命周期分析,要求数据库具有高数据新鲜度和实时查询分析能力。我们利用 Lakehouse 实现了这些需求,并通过图形化界面灵活定义属性,对后台性能提出了较高要求。

图片

会员标签

会员标签包括自动标签、手动标签、圈选标签和二维标签等,主要利用 Lakehouse 实现多租户场景下的标签计算,特别是自动标签,根据客户设定的规则定时计算,对数据库性能和计算能力要求较高。

图片

智能营销

智能营销使用专业的营销画布,通过 Lakehouse 实现超长时间分区和深度数据需求,支持近百种查询逻辑的自定义,构建精准化的客户营销策略。

数据钱包

赋能SaaS企业,释放数据价值。

图片

对于像智简云这样的SaaS企业来说,有客户的数据产生在智简云的平台之上,这些数据的所有权是客户的,如何安全高效地让客户使用这部分数据,与客户自身的数据有机结合,一直是一个难题。传统的解决方案往往需要复杂的权限管理和数据传输过程,不仅效率低下,而且容易出现安全风险。云器Lakehouse的数据无复制分享技术,为SaaS企业实现安全可控的数据交换提供了全新的解决方案,犹如为数据世界打造了一个便捷安全的“数据钱包”。

数据钱包是什么?

想象一下,银行的电子钱包让用户无需接触实体货币,即可轻松完成支付、转账等操作。同样,云器Lakehouse的“数据钱包”功能也赋予了SaaS企业客户强大的数据使用能力,客户无需直接复制底层数据,就能实现数据的代码级ETL和分析,从而实现数据价值的最大化释放。

数据钱包如何赋能SaaS企业?

简化数据钱包流程:数据钱包消除了传统数据共享方式的复杂性,SaaS企业可以轻松地将数据授权给客户,无需进行繁琐的数据复制和传输,极大地提高了数据共享的效率。

增强数据安全性:数据钱包采用细粒度的权限控制,确保只有授权用户才能访问数据,同时避免了数据泄露的风险。SaaS企业可以放心地将数据共享给客户,无需担心数据安全问题。

提升数据实时性:数据钱包消除了传统数据共享方式带来的数据延迟,数据更新及时到达客户,数据价值不打折扣。

提升客户体验:数据钱包让SaaS企业客户能够更直接、更完整、更灵活地使用数据,从而更好地洞察业务,做出更明智的决策。客户可以根据自身需求,对数据进行分析和处理,获得更大的价值。

数据钱包应用场景

数据分析服务:SaaS企业可以将数据分析服务打包成产品,通过数据钱包技术将数据授权给客户,让客户自助进行数据分析,提升客户体验。

数据合作:SaaS企业可以与合作伙伴共享数据,共同开发新的产品和服务,拓展业务范围。

数据资产入表:SaaS企业可以将数据钱包打包成为数据资产,经过数据资产认证后,即可计入企业资产,实现资产增长。

云器Lakehouse的数据钱包,为SaaS企业的数据共享带来了革命性的变化。它不仅简化了数据共享流程,增强了数据安全性,更重要的是,它赋能SaaS企业客户,释放数据价值,为SaaS企业的发展开辟了新的道路。

总结与思考

云器为智简云带来了多方面的价值,包括解决了多数据源问题、支持多云适配、提高了数据处理速度、保证了服务的稳定性,并实现了省钱、省时、省力。

图片

多:解决多数据源问题,支持多云适配。

快:分布式计算引擎提高数据处理速度。

好:提供高质量的数据处理和分析结果。

省:节省成本,简化数据集成处理过程,减少运维负担。

关于云器        

云器Lakehouse作为面向企业的全托管一体化数据平台,只需注册账户即可管理和分析数据,无需关心复杂的平台维护和管理问题。新一代增量计算引擎实现了批处理、流计算和交互式分析的统一,适用于多种云计算环境,帮助企业简化数据架构,消除数据冗余。

点击文末“阅读原文”,前往云器官网申请试用,了解更多产品细节!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/14727.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Go微服务——go-micro v4安装使用

安装go-micro 打开cmd窗口,执行以下命令 go install github.com/go-micro/cli/cmd/go-microlatest测试是否成功安装 go-micro -v创建服务 go-micro new service helloworldwindows 安装make 安装地址 https://gnuwin32.sourceforge.net/packages/make.htm 配置…

springboot集成达梦数据库8,用springboot+mtbatisplus查询值为空

springboot集成达梦数据库8,用springbootmtbatisplus查询值为空 背景:springboot集成达梦数据库8,用springbootmtbatisplus查询值为空,但是在DB管理工具中是可以查询到数据的。 原因及解决方法:执行添加语句后&#xf…

《MySQL怎样运行的》—InnoDB数据页结构

在上一篇文章中我们讲了,InnoDB的数据页是InnoDB管理存储空间的基本单位,一个页的大小基本为16kb 那你有没有疑问,就是说这个InnoDB的数据页的结构是什么样的,还有他这些结构分别有那些功能~接下来我们一一讲解 数据页的总览结构…

Linux笔记之命令行JSON处理器jq

Linux笔记之命令行JSON处理器jq code review! 文章目录 Linux笔记之命令行JSON处理器jq1.安装2.jq 基本用法3.例程3.1. 示例JSON文件3.2. 读取特定字段3.3. 管道过滤器(Pipe Filters)3.4. 映射过滤器(Map Filters)3.5. 条件过滤…

短视频都是怎么剪的:四川京之华锦信息技术公司

短视频都是怎么剪的 随着移动互联网的迅猛发展,短视频已成为人们日常生活中不可或缺的一部分。无论是记录生活的点滴,还是展示个人才艺,短视频都以其短小精悍、直观生动的特点,吸引了众多用户的关注。四川京之华锦信息技术公司那…

自动化重置数据库功能的探索与实践

1、简介 在现代软件开发中,尤其是涉及到数据驱动的应用程序时,开发和测试环境中数据库的管理是至关重要的一环。为了确保开发和测试环境中的数据库始终处于一致的状态,自动化重置数据库成为了一种常见的实践。本文旨在介绍如何通过Shell脚本…

内网(极空间)搭建gitlab跳板机转发端口及域名配置

背景说明 https://blog.csdn.net/GodDavide/article/details/139182475 上文说到: 我已经用docker搭好了gitlab-ce服务,但我是部署在自己的家庭nas-极空间z4pro里的,属于内网环境。 另外我有一台阿里云服务器,做跳板机。 我有一个阿里的域名…

老Java学 Go 笔录(二) 从 go 的编译开始学起

目录 一.版本选择二.环境准备三.工具的选择四.第一个 hello go4.1 开发4.2 编译4.3 编译运行4.4 直接安装 五.用 go 快速搭建 webserver六.调用外部三方方法七.go vs java 的执行 前言 专栏旨在利用现有的 java 体系内容去完成 go 语言的学习. 本次行文是在 https://go.dev/doc…

C# 标识符、变量的命名规范

标识符: 定义的变量名 方法名 类名 等用于识别的内容(变量的命名规范) 命名注意事项: 1.不能以数字开头 2.不能有特殊符号(下划线除外) 3.不能有程序关键字 4.不能重复使用一个名字 命名方法(常用): 驼峰命名法 帕斯卡命名法 不建议使用拼音或汉字命名

迈向2024年,投资无人售货机的盈利能力

在科技进步的浪潮下,无人值守自动售货商店已悄然引领了零售业的新风尚。但关于在2024年开设此类商店是否依旧能实现盈利,这需要一番深思熟虑的分析。 首先不可否认,无人售货机拥有多项显著优势。它打破了传统零售的时间与地点局限&#xff0…

[Linux] 进程概念

目录 1.冯诺依曼硬件体系结构 2.操作系统(OS) 3.系统接口 4.进程的概念 5.进程状态 6.四个其他概念 7.环境变量 8.进程地址空间 1.冯诺依曼硬件体系结构 在冯诺依曼体系结构中,计算机是由输入、输出、存储设备和中央处理器cpu组成的。图中体结…

Unity 自定义Web GL 发布模板

前言 使用讯飞语音识别时,发布Web GL 平台后需要在index.html 中添加相应的script 标签,但每次发布完添加比较麻烦,添加一个发布模板就可以不必每次发布完再手动添加修改。 实现 在Assets 文件夹下新建一个文件夹,重命名为WebG…

重构2:重构的原则之笔记

最近在看重构2:改善既有代码的设计这本书,对于代码重构指导非常有帮助,然后也是做个笔记记录下,以下是我阅读本书的前两章的时候整理的思维导图:

【示例】MySQL-4类SQL语言-DQL

文章目录 前言DQL | Data Query Language总述 | 涵盖几乎所有关键字的DQL语句单表查询关键字 | 用在Select后面查询内容:表字段查询内容:聚合函数查询内容:[排序函数] [聚合函数] 窗口函数查询内容:表字段函数 关键字 | 用在Where…

【MySQL精通之路】InnoDB(18)-备份与恢复

目录 1.InnoDB备份 1.1 热备份 1.2 冷备份 1.3 使用mysqldump的逻辑备份 2.InnoDB恢复 2.1 实时恢复 2.2 从数据损坏或磁盘故障中恢复 2.3 InnoDB崩溃恢复 2.3.1 表空间发现 2.3.2 Redolog应用程序 2.3.3 未完成交易的回滚 2.3.4 更改缓冲区合并 2.3.5 清除 2.4 …

GPT-3可以用于哪些行业

GPT-3的应用已经渗透到了多个行业,其广泛的用途和强大的能力使得它成为了各行各业的重要工具。以下是一些GPT-3的主要应用领域: 在线客服:GPT-3可以理解和生成人类语言,使得它能够更好地满足用户的需求。它可以根据用户的提问实时…

数据湖对比(hudi,iceberg,paimon,Delta)

Delta 数据湖 Delta 更新原理 update/delete/merge 实现均基于spark的join功能。 定位 做基于spark做流批一体的数据处理 缺点 本质为批处理。强绑定spark引擎。整体性能相较其他数据湖比较差 hudi 数据湖 hudi 更新原理 通过hudi自定义的主键索引hoodiekey 布隆过…

Ali-Sentinel-集群流控

归档 GitHub: Ali-Sentinel-集群流控 测试 参考:热点流控-测试 新建 ClusterDemoApplication2 public class ClusterDemoApplication2 {public static void main(String[] args) {System.setProperty("csp.sentinel.dashboard.server", "127.0.…

华为手机卡顿(仅针对于部分人来说,我也不清楚是否真的有用)

关机! 之前一段时间手机变得特别卡顿,然后网上搜了一堆教程一点用没有,结果因为昨天下午在考试所以把手机关机了一个多小时,再打开之后手机就变得很流畅,原因不详,但效果显著,如有需要可尝试一…

docker使用PostgreSQL容器

要执行 db/migrations/ 目录下的多个 SQL 文件以迁移数据库,可以按照以下步骤进行: 1 确认 PostgreSQL 容器正在运行: 确认你已经启动了 PostgreSQL 容器并且它在运行: docker ps -a2 确认容器 beaconchain 是 Up 状态。 将 SQ…