指标+AI+BI:构建数据分析新范式丨2024袋鼠云秋季发布会回顾

10月30日,袋鼠云成功举办了以“AI驱动,数智未来”为主题的2024年秋季发布会。大会深度探讨了如何凭借 AI 实现新的飞跃,重塑企业的经营管理方式,加速数智化进程。
作为大会的重要环节之一,袋鼠云数栈产品经理潮汐带来了题为《指标+AI+BI:构建数据分析新范式》的精彩演讲,深入剖析了当前企业在进行数据分析时所面临的挑战,并分享了袋鼠云数栈在此领域内的最新成果和解决方案。

一、传统数据分析方案的局限性

会议伊始,潮汐首先回顾了传统数据分析方案的架构。传统方案通常采用“数仓+BI”的方式,即业务方提出数据需求后,经过数据产品经理的分析和排期,由数据开发人员将数据从业务系统中统一抽取到数仓进行分层加工。加工后的表吐出到业务库,由BI分析师在BI工具中进行数据接入、数据模型搭建,并基于这些模型通过组件配置和分析交互设置形成数据报表。最终,业务方可以直接通过这些报表共享或嵌入到业务系统中来进行数据分析与监控。
file
然而,这种模式存在几个显著的问题:

高成本与长周期:BI工具往往具有一定的上手门槛,对于不熟悉技术或工具的业务用户来说,很难深入使用。复杂的分析任务严重依赖于数据开发人员和分析师的专业技能,导致需求交付时间周期长,沟通调整的成本也随之增加。

数据一致性难以保证:传统的BI工具是一个封闭且中心化的平台,其中的数据模型定义(包括度量和维度)与其他数据应用之间缺乏互通性。所有数据分析活动都必须在这个平台上完成,这造成了跨应用分析时指标管理不统一、口径不一致以及流程不规范的问题。虽然很多企业在数仓层面实现了统一的数据管理和开发,但在应用层面仍然面临着“烟囱式”开发的困境。

灵活性不足:基于传统BI工具的数据分析很大程度上依赖于分析师在创建报表时预先设定好的图表类型、交互方式及分析配置。这意味着,在不同场景下分析数据波动的原因时往往没有办法直观快速地得到结论。

因此,当前的市场环境下,企业需要一种更高效、低成本的数据分析方案。

二、指标+AI,赋能数据分析

针对上述痛点,潮汐介绍了当前较为流行且有效的解决方案:在数仓和BI中间架设配备AI能力的指标层。
file

数仓处理后的数据在指标层进行统一的数据模型构建,生成原子指标、派生指标、复合指标和衍生指标。这些指标成为后续包括BI在内的所有上层数据应用的基础。基于这种架构,数据分析不仅兼容传统BI工具,还衍生出更智能灵活的方式,如指标数据智能问答和将指标封装成API对业务系统提供即时数据分析服务(即Headless BI)。这样的架构总共有四个方面的优点:

缩短开发链路:指标体系消除了数据结果的二义性问题,不同业务使用同一指标时无需重复开发或校对口径,从而大大缩短了整体开发链路。

轻量级数据分析:通过指标API,可以将数据分析结果轻松集成到任意业务系统中,使业务端能够以轻量级方式实现个性化的数据分析。

实现快速决策:在AI的辅助下结合行业和企业知识库可以对数据异常情况进行快速精准的定位,帮助业务方缩短问题排查链路,加速决策过程。

低门槛使用:Headless BI几乎零门槛,适用于大多数不太复杂的分析场景,让业务方能够主动愿意形成业务分析与数据决策的习惯,让数据价值更加普及。

三、从指标设计到数据分析实践全流程

从对新数据分析方案的架构及优势分析中,可以看出指标体系的搭建是其中最为关键的一环。袋鼠云之前接触到的很多企业客户其实都已经做过指标体系搭建的尝试,但是实践下来碰到很多问题,如指标管理成本高、重复建设、流程不规范等。

针对这些问题,袋鼠云数栈提出了完整的解决方案,基于该解决方案,企业可以构建一套从规范建立到数据分析应用的完整流程。
file
|01 指标管理规范的建立

首先,在企业内部需构建指标管理与加工的流程制度及组织规范,指标管理规范主要包括指标生命周期管理、指标层次与分类管理、指标定义标准化及指标使用管理规范。

指标全生命周期需要确保从业务方提出需求开始,到指标下线的全过程得到有效管控,整个流程每个环节需要定义好输入输出物和负责人员。

接下来是指标层次与分类管理,根据企业战略目标、组织及业务进行自上而下的指标分级,可以分为三个等级,指标类型可以按加工方式和程度分为原子指标、派生指标、衍生指标、复合指标和自定义指标,通过多种类型指标的定义,构建起有序的指标体系。

然后是指标元数据的定义,指标元数据一般包括指标名称、编码、所属业务目录、计算频度、计量单位、负责人、业务口径等信息,定义好每种元数据的填写要求规范,发布前专人审核确保不出现定义内容不准确或不清晰的情况。

最后是指标使用管理,设置公司内指标共享和权限管理机制,让指标的使用更加合规安全。
file
|02 指标开发

在建立规范后,我们来关注指标的开发过程。
file

首先是业务分析。指标管理方要在了解业务的基础上分析需求、拆解指标主题和分类。以零售行业为例,其数据围绕人、货、场展开,通过调研人员、盘点场景,可划分员工销售、采购库存、采购供应商等主题,在这些主题下再细分指标,如员工管理主题下有员工流失率、成效率,销售价格体系中有销售金额、销售利润,由此梳理出存量指标和指标缺口。

指标缺口确定后,开发人员开始工作。比如开发统计各城市在微信和支付宝近 7 日电商业务销售金额的指标时,先创建电商订单数据模型,找到主表订单表及关联表,生成电商业务销售明细原子指标(计算逻辑是订单金额求和,存于电商产品目录下),再由此生成各城市电商销售额派生指标(派生维度为城市和商品类型、时间维度为近 7 天、业务限定为微信和支付宝渠道),配置好离线任务的调度周期和上游依赖,指标数据就可定时产出。
file
|03 指标应用

指标完成开发及数据产出后就到了最关键的一环——指标的应用。袋鼠云指标管理平台已将 AI 深度融入指标多方面多层次的应用中。在介绍应用前,先看 AI 基础能力是如何搭建的。数栈有自己的AI平台,负责所有产品模块中AI能力的搭建,AI 平台支持多种主流大模型部署,并对接行业和企业知识库,结合指标平台业务库的指标属性、指标血源等元数据构成了大模型的数据基础,然后我们就可以在AI平台上搭建应用工作流,来定制指标AI应用。
file

目前主要实现的是基于自然语言的指标搜索、自然语言转化SQL进行自助取数、指标异常归因分析以及指标智能问答及图表分析这4个方面。

一是智能分析。可以在指标取数模块中输入自然语言,如 “查询近 10 天用户对各等级产品的支付金额和支付订单数,支付金额≥15”,平台调 AI 接口解析转换为取数规则,执行后可得结果表,用户可下载分析。在指标看板页面,可以按业务主题新建看板,输入自然语言描述想看到的指标内容,平台经过分析就可以自动生成预制格式的图表,然后在预生成的图表上进行微调得到一张完整的看板,从而缩短看板配置时间。
file

二是归因分析。基于指标目标树或看板异常数据,可层层挖掘异常根因并制订策略。如公司收入下滑,从指标树层层展开发现是销售额下滑的原因,7 月数据下降明显,进一步下钻得到7 月第二周到第三周波动异常,平台结合商品类型、城市和渠道维度计算归因值,发现商品类型的关联值较大,对商品类型中的值进行分析看到手机类销售额下滑比较明显,结合市场情况可知竞品友商活动影响。
file

三是智能搜索及对话式指标分析 ChatBI。在指标的智能问答界面用户可以用自然语言进行指标搜索,智能助理会根据你的描述给出最匹配的指标清单以及每个指标的基础信息,点击指标可查看关键数据,对异常点进一步分析可得到原因和关联指标排查方向。这种以用户问题为导向,围绕问题给出答案,并进行关键因素分析和引导的数据分析方式,与传统让用户在预制报表里自行寻找答案的方式相比,无疑能够大幅缩短问题排查路径,使问题的解决更加聚焦、高效。
file

四、某银行指标管理分析实践案例

某大型银行在购买数栈指标平台前,已经进行了指标体系的梳理和搭建,但在实际应用中遇到了以下几个主要问题:

指标定义不一致:不同业务线存在很多指标名称相同但定义不同的情况。例如,“一般性存款”指标在监管口径中不包括财政性存款,但在人行口径中则包括;绩效考核中不包含保险公司存放款项,而人行口径则包含。这导致了数据解释和应用上的混乱。

指标重复构建:多个金融业务中存在相同的指标重复构建,如“客户人行征信指标”在零售金融、公司金融和普惠金融业务中都有独立构建,没有实现共享,导致资源浪费。

指标应用薄弱:指标构建后主要用于基本信息和口径的检索,没有进一步应用于更深层次的数据分析和决策支持。

针对客户梳理出适用于全行的新指标体系,彻底消除指标的多义性,实现指标在全域范围内的合规共享,并全面加强指标的应用建设的需求,袋鼠云为其量身定制了一套建设方案。
file

首先,将底层的存贷、风控等业务数据统一抽取到数栈平台,在此基础上进行离线和实时的加工处理,从而构建出基础数仓。接着,借助 Trino 引擎开展指标计算,经过分类分层的精细操作,得到不同业务的原子、派生、复合等各类指标,以这些指标为基石,在业绩考核、风险监管、企业存贷等指标体系中形成可以充分共享的指标目录。

在这个完备的指标体系之上,进一步开展一系列基于指标的深度应用建设,包括智能取数、指标看板的自动生成与归因分析、智能问题的智能问答、目标管理以及指标 API 的构建。
经过一年的落地实施,客户指标管理取得了显著成效:

全行 80 家分行中的 5000 + 指标得到了重新改造,个人银行与公司银行业务的指标实现了统一编目和标准化管理。

依据指标开发规范,利用指标相似度分析对 1100 多个指标进行了治理,有效减少了多义性情况的发生。

同时,在严格的数据安全管理规范下,对公考核、普惠金融、基金理财代销等业务的指标共享使用十分活跃。

基于指标的智能数据分析应用,使得开发人员在企业信贷、投行、理财等业务中能够迅速完成数据的分析工作,并快速做出决策,大大提升了银行业务的整体效能。
想了解更多,欢迎点击:https://www.dtstack.com/resources/1080?src=szcsdn

《行业指标体系白皮书》下载地址:https://www.dtstack.com/resources/1057?src=szsm

《数栈产品白皮书》下载地址:https://www.dtstack.com/resources/1004?src=szsm

《数据治理行业实践白皮书》下载地址:https://www.dtstack.com/resources/1001?src=szsm

想了解或咨询更多有关大数据产品、行业解决方案、客户案例的朋友,浏览袋鼠云官网:https://www.dtstack.com/?src=szcsdn

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/885465.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Windows配置NTP时间同步

Windows下实现NTP时间同步 1、Windows时间服务(W32Time)2、Windows 时间同步的工作原理3、配置和管理 Windows 时间同步3.1 命令行工具:w32tm3.2 控制面板中的设置 4. 高级设置(Windows Server 环境)5.调整时间同步的间隔5.1 通过组策略调整时…

系统安全第七次作业题目及答案

一、 1.RBAC0 RBAC1 RBAC2 RBAC3 2.属性 身份标识 3.接入访问控制 资源访问控制 网络端口和节点的访问控制 二、 1.B 2.A 3.ABE 4.BCD 5.ABC 三、 1. 答:基于属性的访问控制(ABAC)是通过对实体属性添加约束策略的方式实现主、客体之…

Golang进阶

1.面向对象 1.1.golang语言面向对象编程说明 Golang 也支持面向对象编程(OOP),但是和传统的面向对象编程有区别,并不是纯粹的面向对象语言。所以我们说 Golang 支持面向对象编程特性是比较准确的。Golang 没有类(class),Go 语言的结构体(st…

Node(节点)、Menu(菜单) 和 Tab(标签页)之间的关系

在系统开发中,尤其是在涉及到前端界面设计和后台管理系统时,我们经常会看到 Node(节点)、Menu(菜单) 和 Tab(标签页) 这几个概念。这些概念有不同的用途和功能,理解它们之…

Python数据分析案例64——杭帮菜美食探索数据分析可视化

案例背景 杭州是真没啥美食呀.....但是 总是还是有好吃的店家,于是就发挥专业长处,进行一下分析,看看杭帮菜的一些特点。。例如看看品种分布啊,类型分布啊,行政区的分布啊,店铺评分的一些分布啊&#xff0…

基于SSD模型的路面坑洼检测系统,支持图像、视频和摄像实时检测【pytorch框架、python源码】

更多目标检测和图像分类识别项目可看我主页其他文章 功能演示: 基于SSD模型的路面坑洼检测系统,支持图像、视频和摄像实时检测【pytorch框架、python源码】_哔哩哔哩_bilibili (一)简介 基于SSD模型的路面坑洼检测系统是在 Py…

《Python编程实训快速上手》第四天--字符串操作

一、处理字符串 1、单引号和双引号 Python中单双引号均可以表示字符串,区别在于: 1、双引号中可以使用到单引号 2、单引号字符串中如果要使用单引号,要使用到转义字符 \ \ \t \n \\ 原始字符串 在开始的引号前加r&#xf…

泷羽sec学习打卡-Windows基础命令

声明 学习视频来自B站UP主 泷羽sec,如涉及侵权马上删除文章 笔记的只是方便各位师傅学习知识,以下网站只涉及学习内容,其他的都与本人无关,切莫逾越法律红线,否则后果自负 关于windows的那些事儿-Base 一、Windows-BaseWindows有哪些版本呢,有什么区别呢&#xff1f…

Node.js——fs模块-文件夹操作

1、借助Node.js的能力,我们可以对文件夹进行创建、读取、删除等操作 2、方法 方法 说明 mkdir/mkdirSync 创建文件夹 readdir/readdirSync 读取文件夹 rmdir/rmdirSync 删除文件夹 3、语法 其余的方法语法类似 本文的分享到此结束,欢迎大家评论区…

VMware Fusion和centos 8的安装

资源 本文用到的文件:centos8镜像 , VMware 软件包 , Termius 文件链接: https://pan.baidu.com/s/1kOES_ZJ8NGN-BnJl6NC7Sg?pwd63ct 安装虚拟机 先 安装 vmware ,然后打开,将下载的 iso 镜像拖入 拖入镜像文件iso Continue, 然后随便选…

【嵌入式开发——ARM】1ARM架构

嵌入式领域,使用ARM架构的芯片公司可不占少数吧,intel的x86架构主要占据PC、服务器市场,ARM架构主要占据移动市场。x86架构和ARM架构不同的主要原因,是背后使用的计算机指令集不同。计算机有自己的语言系统(汇编&#…

LabVIEW扫描探针显微镜系统

开发了一套基于LabVIEW软件开发的扫描探针显微镜系统。该系统专为微观尺度材料的热性能测量而设计,特别适用于纳米材料如石墨烯、碳纳米管等的研究。系统通过LabVIEW编程实现高精度的表面形貌和热性能测量,广泛应用于科研和工业领域。 项目背景 随着纳…

JavaScript day01 笔记

一、引入方式 JavaScript 程序不能独立运行&#xff0c;它需要被嵌入 HTML 中&#xff0c;然后浏览器才能执行 JavaScript 代码。通过 script 标签将 JavaScript 代码引入到 HTML 中 1️⃣内部 通过 script 标签包裹 JavaScript 代码&#xff08;一般就写在</script>的…

【Git】Liunx环境下Git的使用:“克隆,提交,推送“

目录 一、常用参数 二、我们为什么要使用Git&#xff1f; 三、创建远程仓库 第一步&#xff1a;创建对应代码托管平台账号。 第二步&#xff1a;在托管平台创建仓库 第三步&#xff1a;完善仓库内容&#xff08;选择性使用&#xff09; 开源和私有 四、克隆远程仓库到本…

机器人零位、工作空间、坐标系及其变换,以UR5e机器人为例

机器人中的主要坐标系 在机器人中&#xff0c;常用的坐标系包括&#xff1a; 基坐标系&#xff08;Base Frame&#xff09;&#xff1a;固定在机器人基座上的坐标系&#xff0c;用于描述机器人的整体位置和方向&#xff0c;是其他所有坐标系的参考点。 连杆坐标系&#xff08…

JavaSE:运算符 (学习笔记)

目录 一&#xff0c;算术运算符 【1】 共同点&#xff1a; 【2】 不同点&#xff1a; 二&#xff0c;关系运算符 三&#xff0c;逻辑运算符 2&#xff0c;&和&&的区别和联系 { |和||的区别和联系 }---两题类似 四&#xff0c;赋值运算符 五&#xff0c;拓展…

C++中类的默认成员函数

默认成员函数 1.构造函数2.析构函数3.拷贝构造函数4.赋值运算符重载4.1运算符重载4.2赋值运算符重载 #mermaid-svg-oipiwg9stvONvYK0 {font-family:"trebuchet ms",verdana,arial,sans-serif;font-size:16px;fill:#333;}#mermaid-svg-oipiwg9stvONvYK0 .error-icon{f…

游戏引擎学习第一天

视频参考: https://www.bilibili.com/video/BV1zGDCYHErA/ 创建一个保存项目的路径 VS的安装略过&#xff0c;个人自行百度 1. vs 创建第一个CMAKE的窗口项目 game.cpp 修改如下的代码 到https://learn.microsoft.com/en-us/windows/win32/api/winbase/nf-winbase-winmain 去…

视频播放相关的杂记

基于QT FFMPEG设计一款 RTMP协议推流、视频录制软件 实现的功能&#xff1a; &#xff08;1&#xff09;将摄像头视频流 麦克风音频流合并&#xff0c;并推到流媒体服务器 &#xff08;2&#xff09;将摄像头视频流 麦克风音频流保存到本地磁盘 基于QtFFMPEG设计一款RTM…

2024年将尽,我们开始为ESG的未来感到担忧 | 深度

2024已经接近尾声了&#xff0c;今年ESG的发展状况非常两级分化。最极端者&#xff0c;有人觉得ESG要在2024年起飞的&#xff0c;毕竟今年三大交易所出台了《上市公司可持续发展报告指引》&#xff0c;“A股公司进入ESG信披新纪元”。而在另一个极端&#xff0c;有人认为ESG“将…