数据能力已经成为企业的核心竞争力。政策驱动数据产业发展加速,如2023年国家数据局成立;2024年,《“数据要素×”三年行动计划(2024-2026年)》正式发布;并且 2024年起正式将数据资源视为资产纳入财务报表,推动企业数据驱动价值创造。可以看出,近两年国家数据产业政策逐渐深化,从制度建设向落地应用过渡。
在企业端,面向复杂的市场环境和多变的客户需求,企业对数据的依赖和挖掘愈发深入,敏捷强健的数据能力支撑成为企业实现数据驱动、获得市场竞争优势的前提。爱分析观察到,企业在数据能力构建中有两个明显趋势。第一,企业数据能力的建设以数据消费为核心,以业务价值为牵引,形成数据基础设施与数据应用的正向循环。第二,企业快速更新数据基础设施以迭代数据能力,如湖仓一体成数据平台架构迭代新方向,对话式数据分析成为数据基础设施融合大模型能力的率先落地场景。
5月16日,爱分析正式发布《2024爱分析·数据智能实践报告》,以供企业参考。
01 报告综述
数据能力已经成为企业的核心竞争力。政策驱动数据产业发展加速,如2023年国家数据局成立,负责协调推进数据基础制度建设,统筹数据资源整合共享和开发利用;2024年,《“数据要素×”三年行动计划(2024-2026年)》正式发布,要求数据要素应用广度和深度大幅拓展,聚焦十二个重要领域打造300个示范性强的典型应用场景。同时,2024年起正式将数据资源视为资产纳入财务报表,推动企业数据驱动价值创造。可以看出,近两年国家数据产业政策逐渐深化,从制度建设向落地应用过渡。在企业端,面向复杂的市场环境和多变的客户需求,企业对数据的依赖和挖掘愈发深入,敏捷强健的数据能力支撑成为企业实现数据驱动、获得市场竞争优势的前提。爱分析观察到,企业在数据能力构建中有两个明显趋势。
第一,企业数据能力的建设以数据消费为核心,以业务价值为牵引。
企业以往在构建数据能力时,通常是由技术部门或数据部门进行统一规划,并进行数据开发与管理,业务部门被动的使用企业的数据能力。然而,随着业务部门对数据价值的逐渐重视,以及对数据应用需求的快速增加,企业技术部门或数据部门已经不能满足业务部门的用数需求。为赋能业务部门更好的使用数据,企业数据智能基础设施的构建正逐渐转变为以数据消费为核心,基于业务价值创造需求对基础设施进行持续迭代。
第二,企业快速更新数据基础设施以迭代数据能力。
湖仓一体成数据平台架构迭代新方向。企业面临的数据环境日益复杂,如海量多元异构数据的爆发式增长带来的存储成本攀升,业务广泛落地AI应用要求对非结构化数据进行预测、探索分析,以及越来越多分析业务对计算时效从T+1提升到准实时或实时等。而企业建立在数据仓库或数据湖之上的数据平台无论在性能、存储成本、运维成本等方面均面临瓶颈,难以适应复杂数据环境。在此情况下,湖仓一体以其流批一体、弹性存储、多工作负载等特征成为数据平台架构迭代的新方向。
对话式数据分析成为数据基础设施融合大模型能力的率先落地场景。据爱分析观察,通过自动化、智能化提升效率将是企业数据基础设施的下一步迭代方向,而具备强大学习和预测能力的大模型,是实现数据基础设施自动化、智能化的关键技术。其中,数据分析是大模型与数据基础设施融合的优先落地场景。与传统数据分析相比,基于大模型的对话式数据分析具有明显的优点。如传统的数据分析方式中,固定报表依赖IT部门,探索性弱且重复开发现象严重,自助式BI虽然具备探索性,但门槛较高,难以推广到业务人员全员使用。对话式分析以自然语言对业务需求灵活响应、端到端数据洞察的自动化输出以及数据开发工作的简化等特征能有效改善传统数据分析体验痛点,实现全员数据分析。
在以上背景下,本报告选择数据能力建设、湖仓一体、对话式分析三个重点市场进行应用实践分析,为数据能力建设企业提供提供实践经验,加速推进数字化转型升级。
02 数据能力建设
2.1 企业数字化能力建设面临的痛点
多年的数字化转型,企业已经完成基础数据设施建设,如针对数据汇集,已经建设起大数据平台或数据中台;针对经营分析,建立起管理驾驶舱、业务看板;针对数据开发管理,搭建了离线、实时或是批流一体的计算链路。但企业在实际用数过程中仍存在重重障碍,诸如数据质量差、指标体系混乱、业务需求响应速度慢等,距离实现数据驱动决策仍有较远距离。以数据治理为例,从2004年起很多大型企业就开始进行数据治理,但数据质量差仍是企业面临的主要问题。数据中台更是被寄予厚望,数据中台完成了全域数据的集成,但由于缺少业务部门参与,实际的数据整合以及数据共享服务很难支撑业务应用,业务部门“取数难”、“用数难”的问题还是没有解决。
2.2 以数据消费为核心完善数据能力建设
数据能力建设需要打通数据生命周期全流程。结合数据生命周期全流程来看,上述现象出现的原因恰恰在于企业虽然完成了数据采集、数据加工等环节的基础设施建设,但对于数据消费环节的数据应用建设缺失或不足,才导致管理层和业务团队用数难。爱分析也观察到,近两年企业数据能力建设重心转向数据消费,愈来愈重视指标平台、增强分析、CDP、供应链协同、可观测运维等系列数据应用建设。
图1:数据能力建设需要打通数据生命周期全流程
数据应用建设将打通数据消费的最后一公里,推动企业上下形成用数文化,即时用数据论证和洞察,决策更科学、更敏捷,有效支撑业务场景、经营管理效率以及业务模式创新。
但同时需要强调的是,重视数据应用建设并不意味着数据基础设施的停滞,相反,以数据消费为核心能形成数据应用和数据基础设施建设相互促进的的正向循环。业务通过数据应用实现业务价值,在此过程中,一方面会持续产出高质量数据资产,另一方面也会暴露业务流程和数据模型不匹配、数据运营、数据资产管理等问题,进而倒逼数据基础设施有针对性的持续完善。而数据基础设施的持续完善也将加速数据消费在企业更广泛渗透,进一步提升业务价值。
图2:以数据消费为核心促进数据基础设施建设和数据应用建设正向循环
典型案例:某家电企业以数据消费带动业务应用,建设智能营销体系,推进数智化转型
某家电企业系欧洲某领先的家用电器制造商的全资子公司。该公司打造了从采购、研发、生产、销售、物流直至售后客服为一体的完整家电产业链系统,业务领域涉足白色家电的各个领域,包括冰箱、洗衣机、洗衣干衣机、电热水器、厨房电器、小家电产品以及部分进口高端产品等。
自2014年起,该家电企业就已经开始尝试从多个方向进行数字化转型。如在业务方面,面向经销商建立起一套数字化销售与供应链体系;面向消费者,在业内率先布局电商平台,并于2019年上线小程序商城。同时,该家电企业也在推进数据基础设施建设,搭建了数据湖和数据中台来提高对业务需求的响应效率。
数据难流动,数据消费赋能遇阻碍
2020年受疫情影响,家电行业线下门店收入普遍缩水严重,与此同时,用户线上购物和线上服务需求大幅增长,线上渠道正成为家电行业自救的关键。
在这期间,该家电企业线上业务面临增长压力。在既有商城、小程序的基础上,该企业开始借助企业微信对私域用户进行运营,通过与用户互动向线上渠道引流来提高用户粘性、增加收入。但由于缺少系统性营销工具,该企业线上营销面临以下痛点:
1、数据难被业务利用。数据停留在数仓层面,且分散在多个渠道中,业务无法直接应用,需要数据部门对数据进行整合加工;随着线上业务快速发展,业务需求增多,数据部门对业务响应效率变慢,难以满足业务迭代需求。
2、业务操作以半自动、半人工方式为主,执行效率低。如在A/B测试中,该家电企业需要基于小程序开发两个版本,然后由业务手动圈人、打标,再针对数据回流进行人工分析,因此一个完整的A/B测试可能需要一个月的时间。又如在对用户群进行营销时,业务员需要反复手动分类、筛选会员,再按场景分类推送消息,随着用户数量日益增长,手工分类的方式难以支撑业务发展需求。
3、数据难以支撑洞察。一方面,虽然该家电企业已经建设了数据中台,但由于未考虑线上业务需求,对关键业务环节的埋点部署存在缺失,致使业务对消费者进行分析时,常出现数据缺损或数据质量问题;另一方面,该企业在进行文案设计、推荐及热销榜等运营位选品、产品功能等决策时,由于缺乏数据支持,常以个人经验为主,营销效果难以保证。
在以上背景下,该企业希望推进数智化转型,实现智能化营销、数据驱动,并开始对营销工具及厂商进行选型。在选型过程中,该企业一方面对比多方营销工具的高效性、易用性,另一方面考虑到多工具之间的打通与联动,希望厂商能提供一站式解决方案,具备完整的技术架构和产品架构,系统性解决企业当下的营销需求。综合考量下,该家电企业最终选择与火山引擎进行合作。
火山引擎是字节跳动旗下的云服务平台,旨在将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,帮助企业构建用户体验创新、数据驱动决策和业务敏捷迭代等数字化能力,实现业务可持续增长。
基于字节跳动10余年数据驱动和业务实践经验沉淀,火山引擎推出企业数字化升级新模式“数据飞轮”,以数据消费为核心驱动力,使企业数据流充分融入业务流,实现数据资产和业务应用的飞轮效应。数据飞轮体系的落地由数款火山引擎大数据产品进行支撑:数据资产轮层面包含云原生数据仓库ByteHouse、云原生开源大数据平台E-MapReduce、大数据研发治理套件DataLeap、湖仓一体分析服务LAS、流式计Flink等产品,以数据消费推动数据资产融合统一,并进行高效、高质量的资产建设;业务应用层则包含智能数据洞察DataWind、A/B测试DataTester、增长分析DataFinder、客户数据平台VeCDP、增长营销平台GMP等应用型产品,让数据真正与业务场景相链接,助力企业在用户营销、私域运营等场景充分发挥数据价值。
图3:火山引擎数据飞轮
引入智能营销解决方案,打通数据资产与数据消费循环
在本次合作过程中,该家电企业与火山引擎基于业务现状对方案展开了深入探讨,最终形成一套完整的解决方案,通过优化该家电企业自有渠道接触用户的场景,提升用户体验、改善销售效果。解决方案引入A/B测试DataTester、增长分析DataFinder、客户数据平台VeCDP、增长营销平台GMP、智能数据洞察DataWind等系列工具,实现以下两方面能力建设。
1、数—实现数据驱动营销决策
首先通过DataFinder,该家电企业对官网、小程序等重要渠道的数据进行了采集,随后针对采集的多源数据,通过DataWind从用户分析、会员分析、销量分析、渠道分析、商品分析等多维度建设业务分析看板,开展洞察分析;另一方面,该家电企业基于DataFinder采集的数据,结合A/B测试工具DataTester,对消费体验全流程如页面设计和布局、产品描述和图片、价格策略、购物流程、广告推送等环节持续进行优化,基于数据进行科学决策,最终提升产品转化率。
2、智—实现实时智能化营销
1)建立统一的用户画像One ID体系
借助VeCDP可视化ID-Mapping配置能力,该家电企业能对分销、电商、市场营销等多渠道的各类一方数据,如用户行为、用户信息、订单信息、商品信息等全域数据进行清洗、整合,自动化、实时地完成标签管理,构建起全面、统一的用户画像One ID体系,赋予数据“业务语言”,消除业务用数门槛。业务能通过One ID用户画像体系实时开展精准营销。
2)实现多场景多触点的自动化营销
在GMP增长营销平台中,该家电企业营销人员能通过流程画布的方式,快速对用户属性、行为、标签等圈选,之后可设置按用户行为触发或固定时间推动等多种方式对多渠道用户进行触达。通过VeCDP联动GMP,营销人员可一键实现精准化、自动化用户触达,有效提升运营效率、改善营销效果。
智能营销方案能显著提升营销效率、改善用户体验
通过与火山引擎合作,该家电企业盘活数据资产,用数据改善用户体验、提升销售收入,实现数据驱动,同时也建立起自动化、智能化的营销执行流程,显著提升营销效率,具体表现在:
1、实现数据驱动决策。借助DataTester,该企业将A/B测试广泛应用在文案推送、运营位选品、产品功能设计等多个实验场景中,并基于科学的实验报告结果,敏捷决策出优胜版本,告别过往经验式的运营。
如小程序运营位的优化上,该企业通过DataFinder的人群分析,首先洞察出了用户对清洁产品和清洁服务两类产品有兴趣,随即应用DataTester验证该假设的正确性,按照实验结果进行调整后,运营位点击率和转化率都实现了提升,且数据结论显著。又如借助DataTester,该企业对关于家电生命周期订阅消息的推送文案进行优化后,文案的打开率提升了23%。
2、提升营销效率。智能化的营销执行流程能减少繁琐的工作任务,使营销人员专注于业务,聚焦价值创造。如该家电企业对营销活动中成交用户进行分析,总结出共性特征后,再在GMP中固定推送条件,实现一键式精准触达,提升用户体验。
以数据消费为核心,构建业务应用和数据资产管理的良性循环
该企业与火山引擎的合作案例为其他企业盘活数据资产、发挥数据价值提供了借鉴思路:
1、以数据消费为核心,带动业务应用和数据资产的正向循环。该企业与火山引擎合作之前,已经建设了数据湖、数据中台,良好的数据基础设施在该企业加速开展线上业务时并没有发挥出应有的作用,这一点在线上营销中尤其明显。究其原因,该企业在进行数据基础设施建设之初未以数据消费、业务应用为导向,导致业务应用时出现各种不适。于是,该企业将营销场景作为数智化转型的抓手,以数据消费为核心,借助火山引擎智能营销解决方案,先让数据在业务应用中跑起来,让业务“用起来”。在业务应用的过程中,持续的业务需求也能推动底层数据基础建设更完善,最终形成业务应用和数据基础建设正向循环的良性增长。
2、选择与企业数智转型思路相契合的厂商。该家电企业的数智化转型思路与火山引擎“数据飞轮”模型相契合。数据飞轮是火山引擎基于字节跳动十余年实践经验的提炼。火山引擎认为,企业通过提高数据消费频率,让数据流和业务流充分融入,能带来业务应用和数据资产的飞轮效应。一方面,数据消费使企业决策更科学,另一方面,数据消费也将丰富、沉淀数据资产,完善基础设施、优化数据管理。双方理念的契合是本次合作顺畅开展的基础。此外,火山引擎经市场验证的智能营销解决方案则为项目建设效果提供了有力保障。
03 湖仓一体
3.1 企业数据平台面临性能、存储、分析等多重挑战
面对海量多元异构数据体量的快速增长,企业采取多种方式对数据平台架构进行改造,如对数据仓库进行扩容,建设数据湖对多源异构数据进行存储,或是采纳多种非结构化数据库进行存储等。但是随着业务对数据分析和AI应用的需求增强,过往企业数据平台在性能、运维、存储等方面均面临瓶颈,具体表现在:
开发运维任务日益繁重。一方面,企业在历史构建数据平台的过程中,多形成数据仓库和数据湖共存的数据架构,其中数据仓库支持固定报表、敏捷BI分析,数据湖支持探索性、预测性AI应用。数据仓库和数据湖两套数据资产管理体系,以及相互之间进行数据存储、调用使得开发运维工作加倍。另一方面,企业在数据计算中常采用“离线计算”和“实时计算”双链路,双链路之间数据的存储、清洗、转换使得数据链路异常复杂,也使得增加了性能优化、故障排斥等运维工作大幅增加。
难以支撑更多业务场景的实时计算需求。除交易、广告、游戏等实时业务外,越来越多的分析业务对计算时效要求提升,如金融、零售、快运行业的经营分析、用户分析、风险管理等场景计算周期要求从T+1缩短到准实时或实时。以快运公司为例,快运公司业务具有极强的时效性,除物流订单状态更新、TP数据库同步等实时场景外,日常运营的数据分析时效性也需要从天级转向分钟级,以对运输路线、车辆调度等进行实时调整,实现降本增效。其中运营数据分析会涉及到对海量数据的多表关联、预测、分类等多种复杂分析,这在传统的数据仓库或数据湖架构下均难以实现。
难以降低存储和计算成本。存储方面,文本、图像、语音等非结构化数据量急剧增长,异构数据低成本存储对数据平台架构带来挑战,数据平台同时面临横向和纵向扩容瓶颈。计算方面,业务模式在快速变化,带来业务流量波动,传统靠服务器堆积的方式会带来巨大的计算资源浪费。
3.2 湖仓一体成数据平台架构迭代新方向
湖仓一体在性能、弹性扩缩容、数据资产统一管理等方面的优势使其成为数据平台的未来迭代新方向。湖仓一体的优势具体体现在:
实现多元异构数据资产的统一管理。湖仓一体首先采用标准文件格式对多元异构数据进行统一存储,之后建立元数据层,实现ACID事务处理、版本控制等数据管理功能,实现数据资产的统一管理,并以一套数据支持固定报表、BI、数据挖掘、机器学习等数据应用场景,有效减少数据ETL,尤其适用于“规则引擎+机器学习+LLM“多技术融合的AI应用场景。
流批一体,简化系统架构。湖仓一体通过增量计算实现批处理与流处理的统一,将业务系统数据实时抽取到数据湖,实时加工后传输至OLAP系统中对外服务,实现端到端过程的分钟级时延。流批一体支持运维人员使用通过SQL语言对离线数据和实时数据进行统一开发、治理和分析,使数据链路更简洁,有效降低运维开发成本。
支持存算分离,提升平台灵活性和扩展性。湖仓一体支持存算分类,能对计算资源、存储资源分别进行弹性扩缩容,实现海量多元异构数据的高性价比存储,同时也能灵活支持业务流量波动需求,按需扩展。
随着汽车行业进入智能网联时代,车企纷纷布局布局智能网联和自动驾驶,以期掌握新时代智能汽车领域的主动权。某车企在布局新业务过程中,数据仓库和大数据平台并行的架构面临新的挑战,如多元异构数据激增,原有存储架构无法支撑,以及烟囱式开发带来数据孤岛。
在某技术厂商的协助下,该车企基于湖仓一体架构搭建起统一的数据底座,采用存算分离、流批一体技术,融合打通车企数据湖和数据仓库数据。湖仓一体使车企可方便的为不同业务做数据分析,避免数据重复存储;存算分离使平台可灵活扩展、按需扩容;批流一体使车企可在车速、里程、电流、电压、SOC、天气、道路、地图等多场景下,灵活进行实时或离线采集、计算,满足业务时效性。
通过与技术厂商合作,该车企实现企业级数据全生命周期管理、实现一站式数据开发能力,数据挖掘分析能力大幅提升,对多业务场景高效赋能。
04 对话式分析
4.1 既有数据分析工具难以满足企业数据驱动决策需求
数据分析是实现数据价值挖掘、支撑数据驱动决策的关键。企业正面临广泛的数据分析需求。一方面,企业数据基础设施建设已经非常完善,为企业开展数据分析提供了充分的数据资源和分析工具,企业亟需释放数据生产力。另一方面,存量竞争下,精细化运营策略使得企业对数据分析的依赖增强,各业务部门均借助数据分析获取数据洞察、高效解决问题以及实现创新突破。然而,以固定式报表、自助式BI为主的数据分析方式难以满足企业快速增长的分析需求,具体表现在:
沟通反复、周期长,难以及时产出深度结论。固定报表或者驾驶舱中仅呈现数据事实,经营者或者业务人员更希望探究数据变化背后的原因进而采取行动。但业务人员不具备自主分析能力,需要向IT人员提出分析需求。IT人员由于对业务缺乏理解,需要与业务团队反复沟通,反复编写脚本、SQL来调整数据模型。这个过程时间周期长,且一旦分析结果不满足业务需求,又要重走流程。
业务对数据分析依赖增强,供需严重不平衡。企业的数据分析使用对象从经营者转向以业务人员为主,不仅数据分析任务数量快速增长,而且数据分析需求也更个性化、多样化,企业有限的IT资源难以满足业务分析需求,亟需提升分析效率。以某游戏部门为例,该游戏上线后进入快速增长期,业务需求多为探索性需求,并且非常紧急且频繁。但数据开发人员每周仅能完成15-20个任务,造成大量需求被搁置,供需严重失衡。此外,多部门对指标定义的不同也带来跨部门沟通和决策的混乱。
BI产品学习门槛高,难以广泛应用。自助式BI工具功能复杂,业务人员需要经过完整培训,才能熟悉指标、数据集、聚合函数类型、语法、过滤条件等,进而挖掘数据,这对于业务人员的要求非常高,常常需要IT人员介入,也导致业务人员花费过多时间在工具的学习,而不是在洞察和行动上。
4.2 基于指标平台的对话式分析能准确理解分析意图,实现深度分析
面对传统数据分析工具在效率、灵活性、使用门槛等方面的痛点,融合大模型能力的对话式分析带来新突破,能更高效地支持企业管理和业务发展。实现对话式分析的路径有多种,包括LLM+宽表、LLM+指标平台、LLM+图模型等,其中LLM+指标平台路径的对话式分析在准确度、可信可控方面较成熟,具体表现在:
图4:基于指标平台的对话式分析
准确理解分析意图,实现深度分析。LLM+指标平台是把常见的指标先基于宽表进行计算,再运用自然语言查询指标,精确度较高且基本上具备可控性。对于语义模糊、维度识别、累加聚合等简单的查询场景,大模型自身意图理解、语义对齐能力即能识别特定指标,而对于归因分析、多任务等复杂查询场景,可结合Agent对分析任务拆解后实现。同时,大模型生成的复杂SQL也能转化成自然语言的查询解释,以及Agent任务规划的步骤拆解进行呈现,来让用户验证查询过程的准确性。
支持实时分析,提高数据洞察效率。LLM+指标平台的分析效率依赖于指标平台的计算性能,只要具备高效的指标计算引擎,即可实现秒级回答。这使得业务人员具备数据分析自主性,不再依赖IT人员,而是直接面向企业数据,通过多轮对话不断深挖问题本质,赋能业务部门自主性。
某互联网公司业务发展在进行精细化运营的过程中,面临数据需求的增长与开发团队人力资源之间的矛盾。该公司已经在2020年实施了可视化的拖拽模型,2021年做了SQL模式,并在23年上线了对话式分析产品。
在对话式分析产品上线及推广过程中,该公司通过分析师团队和数仓团队合作建设完善的数据资产体系,并通过产品培训辅助一线业务部门提升获取数据效率。
该公司应用对话式分析产品后效果显著:1)数据分析使用对象得到扩展,新增了100多个从未接触和不愿使用BI工具的长尾用户,其需求也得以满足。2)激活数据分析产能,每周能处理的需求从最初的200个提高到了8000个。其中临时需求所占比例从之前的45%降至10%,分析师可以专注于经营策略的分析,数仓团队也可以更加专注于模型及性能的优化与建设,进一步完成数据资产体系的全面重构。