导读
本篇分享的是智简云使用云器Lakehouse升级数据平台的实践总结。
智简云,是一家拥有十余年历史的科技公司,专注于企业服务领域,开发了两款核心产品:基于PASS平台的客户关系管理(CRM)系统和为中小型用户量身定制的软件即服务(SaaS)平台。近年来,智简云的SaaS平台业务发展迅猛,尤其是在2021年获得GGV资本的战略性投资后,公司在市场推广和产品研发方面投入了大量资源,实现了跨越式增长。
作为一家服务数百家客户、积累亿级会员数据的SaaS企业,智简云利用云器Lakehouse实现了数据平台的架构简化、性能提升和成本优化。同时,云器独特的“数据钱包”功能,为智简云打造了一种安全、高效、灵活的数据共享新方式。以可控的数据管理机制,让企业在SaaS平台上的自有数据可以安全回流使用,发挥数据的价值。
智简云使用云器Lakehouse的实践
亿级会员数据带来的机遇与挑战
智简云SaaS平台积累的亿级会员数据,蕴藏着巨大的商业价值。通过对这些数据的分析,智简云可以深入了解用户行为、偏好和需求,从而:
-
精准营销: 根据用户画像和行为数据,进行精准的营销推广,提高转化率和ROI。
-
提升用户体验: 通过数据分析,了解用户痛点和需求,优化产品功能和服务,提升用户满意度。
-
优化产品服务: 根据用户反馈和数据分析,不断改进产品和服务,提升市场竞争力。
然而,海量数据的处理也带来了巨大的挑战:
-
数据存储和管理: 亿级数据需要巨大的存储空间和高效的管理工具。
-
数据处理效率: 传统的数据库和数据处理工具无法满足海量数据的处理需求,导致分析效率低下。
-
数据分析能力: 需要强大的数据分析工具和算法,才能从海量数据中挖掘出有价值的信息。
-
数据应用服务能力:智简云的用户在平台上积累了大量的数据,有分析和应用的需求,智简云作为SaaS平台工具需要更好支持客户发挥数据价值。
具体的,智简云还面临着一些特定的数据处理难题,包括:
架构复杂
起初采用了传统的Lambda架构来处理大数据问题,但该架构的复杂性要求我们整合多种开源工具,如Spark、Kafka、HDFS等。这些技术虽然应用广泛,但要将它们整合在一起,却是一项庞大的工程。Lambda架构通常包含实时处理层、批量处理层和服务层等多个层次,每一层都需要独立设计、开发和维护,这无疑增加了系统的复杂性和技术多样性。
开发运维复杂
架构的复杂性直接导致了开发和运维的复杂性。由于涉及多种技术和系统,运维和管理成本相对较高。一旦系统出现故障或需要性能优化,都会带来一系列复杂问题。尽管Lambda架构支持线性扩展,但实时层和批量层的独立扩展可能会在系统规模扩大时遇到瓶颈。
在这种情况下,需要专门的人才进行精细的管理和优化。然而,我们的核心关注点在于应用开发,如果过多地投入精力处理这些问题,将导致资源成本大幅增加。此外,数据接入和ETL(Extract, Transform, Load)处理架构的复杂性也带来了额外的挑战。
客户数据复杂
CRM系统处理的数据非常复杂,包括会员数据、消费数据以及与商城相关的行为数据,这些数据大多来源于客户的ERP系统。尽管我们提供了接口,但某些数据的实时性和大量数据的处理需求要求我们直接从客户的数据库中抓取数据。客户的数据库类型多样,常见的有Oracle、PostgreSQL、MySQL等,这增加了研发成本。此外,每个客户的业务系统各不相同,数据抽取和转换过程也较为复杂。需要将每家客户独特的原始数据结构抽象化,以便于分析,这就需要成熟的数据抽取转换程序。
成本高
-
开发维护成本高,服务器成本高(至少五台高配主机)。
-
资源浪费: 数据处理任务存在高峰和低谷,导致资源浪费。
-
数据研发成本: CRM数据复杂,来自不同ERP系统,数据库多样性增加研发成本。
解决方案的选型思考
面对日益增长的数据量和日趋复杂的业务需求,智简云意识到,选择一个合适的大数据平台至关重要。为了解决现有痛点并满足未来发展需求,智简云经过深思熟虑,制定了以下几个关键的选型指标:
-
一体化架构:告别繁琐的Lambda架构,寻求一个一体化的大数据平台,简化数据处理流程,降低系统复杂性和技术多样性。
-
性能达标:平台必须具备强大的数据处理能力,能够高效地进行查询分析和跑批任务,满足海量数据的处理需求。
-
弹性伸缩:平台需要具备弹性伸缩能力,能够根据数据量和计算需求动态调整资源,应对业务高峰期和大促活动。
-
云原生服务:优先选择云原生服务,避免私有部署带来的运维难题,降低运维成本,提高资源利用率。
-
数据安全: 平台必须具备完善的数据安全保障机制,确保会员数据的安全性和隐私性,满足合规要求。
所选的大数据平台必须具备一体化架构,能够满足大数据处理的性能要求,具备弹性伸缩能力,并且是云原生服务。此外,数据安全也是我们的重要考量因素,因为我们处理的会员数据涉及隐私和商业机密,必须确保数据安全。在市场上寻找满足这些条件的产品发现云器 Lakehouse 完全符合我们的指标。
云器@智简云架构
云器Lakehouse的一体化架构能够替代之前使用的多个复杂开源工具,提供界面化的配置,简化了底层管理,支持弹性伸缩,并确保了数据安全。
公司与云器合作设计了基于云器的数据架构,其中包括:
智简业务系统
使用MongoDB和PostgreSQL数据库,并通过Flink CDC技术实现数据的实时接入和异步批量导入。
云器产品模块
在云器Studio中进行数据加工分析,生成可应用的数据模型,支撑整个业务流程。
多数据源适配&可配置抽取任务
我们深入使用了云器的多数据源适配功能,并配置了每日运行的抽取任务。
数据进仓
数据集成&数据ETL加工
数据进入仓库后,对其进行加工,利用云器的ETL调度和数据质量监控工具,大大降低了数据管理和开发的复杂性。这使得我们的开发资源得以释放,可以更专注于业务应用开发,实现了降本增效。云器的增量计算和实时数据处理能力也满足了我们业务上的准实时需求。
调度运维&数据质量监控
云器的调度运维工具能够监控异常任务并发出警报,确保我们能够在客户察觉问题之前及时处理。
数据应用
数据应用方面的典型的应用场景:
-
会员洞察
-
会员标签
-
智能营销
-
数据分享
会员洞察
会员洞察涉及对会员数据的全生命周期分析,要求数据库具有高数据新鲜度和实时查询分析能力。我们利用 Lakehouse 实现了这些需求,并通过图形化界面灵活定义属性,对后台性能提出了较高要求。
会员标签
会员标签包括自动标签、手动标签、圈选标签和二维标签等,主要利用 Lakehouse 实现多租户场景下的标签计算,特别是自动标签,根据客户设定的规则定时计算,对数据库性能和计算能力要求较高。
智能营销
智能营销使用专业的营销画布,通过 Lakehouse 实现超长时间分区和深度数据需求,支持近百种查询逻辑的自定义,构建精准化的客户营销策略。
数据钱包
赋能SaaS企业,释放数据价值。
对于像智简云这样的SaaS企业来说,有客户的数据产生在智简云的平台之上,这些数据的所有权是客户的,如何安全高效地让客户使用这部分数据,与客户自身的数据有机结合,一直是一个难题。传统的解决方案往往需要复杂的权限管理和数据传输过程,不仅效率低下,而且容易出现安全风险。云器Lakehouse的数据无复制分享技术,为SaaS企业实现安全可控的数据交换提供了全新的解决方案,犹如为数据世界打造了一个便捷安全的“数据钱包”。
数据钱包是什么?
想象一下,银行的电子钱包让用户无需接触实体货币,即可轻松完成支付、转账等操作。同样,云器Lakehouse的“数据钱包”功能也赋予了SaaS企业客户强大的数据使用能力,客户无需直接复制底层数据,就能实现数据的代码级ETL和分析,从而实现数据价值的最大化释放。
数据钱包如何赋能SaaS企业?
简化数据钱包流程:数据钱包消除了传统数据共享方式的复杂性,SaaS企业可以轻松地将数据授权给客户,无需进行繁琐的数据复制和传输,极大地提高了数据共享的效率。
增强数据安全性:数据钱包采用细粒度的权限控制,确保只有授权用户才能访问数据,同时避免了数据泄露的风险。SaaS企业可以放心地将数据共享给客户,无需担心数据安全问题。
提升数据实时性:数据钱包消除了传统数据共享方式带来的数据延迟,数据更新及时到达客户,数据价值不打折扣。
提升客户体验:数据钱包让SaaS企业客户能够更直接、更完整、更灵活地使用数据,从而更好地洞察业务,做出更明智的决策。客户可以根据自身需求,对数据进行分析和处理,获得更大的价值。
数据钱包应用场景
数据分析服务:SaaS企业可以将数据分析服务打包成产品,通过数据钱包技术将数据授权给客户,让客户自助进行数据分析,提升客户体验。
数据合作:SaaS企业可以与合作伙伴共享数据,共同开发新的产品和服务,拓展业务范围。
数据资产入表:SaaS企业可以将数据钱包打包成为数据资产,经过数据资产认证后,即可计入企业资产,实现资产增长。
云器Lakehouse的数据钱包,为SaaS企业的数据共享带来了革命性的变化。它不仅简化了数据共享流程,增强了数据安全性,更重要的是,它赋能SaaS企业客户,释放数据价值,为SaaS企业的发展开辟了新的道路。
总结与思考
云器为智简云带来了多方面的价值,包括解决了多数据源问题、支持多云适配、提高了数据处理速度、保证了服务的稳定性,并实现了省钱、省时、省力。
多:解决多数据源问题,支持多云适配。
快:分布式计算引擎提高数据处理速度。
好:提供高质量的数据处理和分析结果。
省:节省成本,简化数据集成处理过程,减少运维负担。
关于云器
云器Lakehouse作为面向企业的全托管一体化数据平台,只需注册账户即可管理和分析数据,无需关心复杂的平台维护和管理问题。新一代增量计算引擎实现了批处理、流计算和交互式分析的统一,适用于多种云计算环境,帮助企业简化数据架构,消除数据冗余。
点击文末“阅读原文”,前往云器官网申请试用,了解更多产品细节!