从治理到“智”理,打造新一代金融数据体系

摘要:长期以来,很多金融机构的数据治理效果一直不尽人意,这已经成为金融科技公认的重要需求与固有难题。以大模型为代表的新一代人工智能有望彻底改变这种状态,它通过以自然语言而非专业技术驱动的人机交互界面,以及对人类专业经验与流程执行效果的良好模拟,能有效解决传统数据治理体系与工程中的诸多难点,大力推动人工治理走向自主“智”理,并最终形成新一代的金融数据体系。

1. 前言

数据治理长年以来一直是最重要的金融科技领域之一,从本世纪初金融机构开始实施企业级数据仓库(EDW)开始就一直被持续关注,并不断进行着相关的建设与改进活动,包括数据标准、数据质量、元数据管理工程、相关的咨询规划等工作,以及近十几年来随着大数据技术普及而兴起的数据中台、数据资产管理等,都属于数据治理的范畴或者与之紧密相关。同时,数据治理长年以来也是金融科技系统中最为尴尬的难题。它不像很多业务目标非常清晰项目与产品实施,效果立杆见影。对大部分金融机构来讲,数据治理一直处于这样的境况:数据治理状态不好一直确切地影响着业务质效,因此不断受到重视;数据治理项目长年持续实施,可带来的效果总是与预期不付。例如咨询规划相当多起了高调,后续落实不力;数据标准项目往往形成了全面一致的本子,但却难以大范围切实推广;数据质量工具与流程不断引进,但数据质量问题一直不能得到上下、内外一致顺畅的解决;元数据管理往往限于一域,企业级水平很难达到;数据资产、数据中台等本质上也都是为了让业务更方便地使用数据而建设的新孤岛,对数据治理水平并没有实际的提升.....。总之,相当部分金融机构的数据治理工作就是长期处于这样一直在努力、一直不满意的尴尬状态中。

仔细分析就可以发现,金融数据治理的这种状态其实是正常并且合乎逻辑的,也就是说,如果没有什么明显的驱动力,大概率大家会一直这样持续下去。为什么呢?数据治理与实施具有明确业务目标的项目不同,除了技术与工具之外,它很大程度上都依赖于“人”,这包括人的经验,人的手工,人对流程的执行力、配合度等。例如,对数据质量问题,工具往往只能通过规则协助发现问题,却不能解决问题,解决问题需要靠人的经验与精力;数据标准的执行,也需要自顶而下、各平行部门的人配合协调执行流程;数据处理中的标注、分类,元数据的填充、生成等也主要依靠人工。这些都还只是一些典型的问题,更不说如何能从数据资源中发现更深更广层次的关联知识,如何从现有数据中产生有更广泛用途的增强数据等数据治理的高阶提升,不依靠人工就更加无法实现了。可以这样说,只要人的作用在数据治理中无法减轻,数据治理的尴尬现状就很难得到根本的改善。

本文认为,2022年底开始迅速流行起来的新型人工智能,即大模型技术,可以从根本上改变金融数据治理的上述现状,将治理推进到“智”理,同时催生新一代的数智融合金融科技体系。其中最核心的原因就是大模型技术可以大幅度降低数据治理对“人”的经验与手工工作的依赖,这是经典人工智能无法做到的。

可以这样描述:传统数据治理工具只通过流程与显式规则控制,无法真正、自主提升数据治理水平,即只能发现,无法提升;同时难以摆脱人工对数据架构、分布、标准、质量、元数据、信息化(报表)等数据治理全生命周期的大量干预。而大模型将改变数据治理过份依赖人工现象,实现由“专家+工具”治理向自主“智”理过度,并可以按需生成大数据,形成数据治理闭环

2. 金融数据“智”理的宏观要素

从宏观层面来讲,大模型驱动的数据“智”理作用可以体现在如下几个方面:

        (1) 数据消费常态化:数据“智”理可以将传统治理“以管为核”的状态真正推进到“以管为基,以用为核”的数据消费常态化的高级阶段。现代数据“智”理的核心目标是数据消费,即“用好”,而不只是“管好”。虽然说过去数据资产化的目标也是“用”,但经验告诉我们这从来没有真正实现过。为了解决业务无法有效使用数据平台的问题,数据资产化项目往往都是通过面向业务主题重新组织传统数据平台中过于技术化的数据集,通过一大推的数据加工工程建立一个业务人员能看懂、方便用的新业务数据平台(包括数据集与自助探索工具)。但这个过程中最关键的点,即技术到业务的变换从来都无法主体常态化、自动化,无论如何总结积累,都无法避免大量的人工干预,以及随着生产数据不断增长更新带来的重建与维护,导致数据资产化平台成为了一个新的亟需“治理”的数据集合。而大模型数据“智”理则可以将数据属性从技术到业务的转移与转换变成SmartMove与AutoShift,成为面向业务增长与扩展自主适应与自动执行的常态机制;

        (2) 治理工程任务化:数据治理实施中,有大量不可避免的工程性工作,例如进入数据平台之前对数据的清洗,空白值填充,去重,合并;对元数据未知业务语义的补充;对不合格数据的检测与修正......等等。这些工作有的依靠规则性工具辅助人工在一定程度上提升效率,有的需要人工依次定制脚本,有的则必须纯粹依靠人工。当然,也有很多通过经典自然语言处理NLP技术进行语义分析的尝试,但效果都不是很理想。实践证明,大模型出现之前的经典人工智能的效果,严重依赖高质量、大批量的训练数据,特定的场景,以及技术人员对业务的充分深度理解,因此很难实现大范围的有效推广,简单讲:无法成为通用技术设施,很多所谓AI技术中台的概念从来都没有成功过。这些工程工作量大、繁杂,且往往都是数据治理能否顺利产生成效的关键点,从而成为数据治理难以取得常态化成效的主要障碍之一。而大模型的出现,则使人工智能成为通用技术基础设施成为可行。基于大模型技术,可以使上述各类工程从需要通过工具开发、代码开发或者人工执行具体过程的“功能”,升级成为只需要告诉数据平台我需要什么结果的“任务”,即实现“治理工程任务化”,这显然对数据治理工作的实施难度与质效提升有很大的帮助;

        (3) 质效提增平民化:长期从事数据治理工作的人应该知道,如果想提升数据治理的质效,必须由一批有丰富经验、知识与技能的各类业务与技术“专家”才有可能实现。比如写SQL,做报表,修正数据,补充语义等。然而,数据治理的核心目标之一却是“让企业所有需要数据的主体,包括业务、技术、运维甚至客户,都可以方便地使用高质量的数据”。这些需要数据的主体,他们对数据资源质效的要求极为广泛,并且根本无法以规则总结做穷举性工程抽象。因此,即使拥有上述这群“专家”,也只能是达到尴尬的维持状态,很难充分满足实际需求。大模型的出现,可以让任何一个主体,无论他的技能与知识水平如何,只要他知道自己需要什么,只要他知道数据质效哪里有问题,就可以直接以“自然语言要求”来提增质效。比如最容易理解的NL2SQL,不需要写SQL,语言要求就可以自动生成SQL;不需要从数据处理全流程出发修正数据错误,只需要告诉平台哪些数据是错误,下次需要怎样修正;甚至普通的开发人员可以以自然语言实现过去高级开发人员才能实现的计算效率改进问题,普通的运维人员可以以自然语言完成高水平的运维等,即实现“质效提增平民化”。可想而见,这一点将使数据治理及其使用形成完整的正向提升反馈闭环与循环,能够产生的实效无疑是巨大的。

        (4) 数据资源多模化:一直以来,数据治理的主要对象是结构化数据,其所有的体系、流程与工具也大都是针对“表格”。然而,随着数字化的不断深入,以及金融科技向着深度沉浸式感知的客户体验能力进化时,对全结构、多模态的数据资源进行有效的治理已经成为迫在眉睫的重要任务。但是,在金融数据体系中,文音视图等非结构化数据一直没有也不能得到很好的治理,这是因为无论是数据库还是更先进的湖仓平台,其主体能力其实都是面向结构化(包括半结构化)数据的。过去虽然有过很多对非结构化数据统一管理治理的尝试,但由于技术限制,大多类似的工作实质上都只是采用结构化数据管理工具链接文件地址,准确地讲,这种技术方法相当于并没有多模态数据管理治理的能力。大模型技术体系中的向量化技术,以及RAG(检索增强生成),可以非常有效地将文音视图等多模态数据资源与结构化数据管理技术融合起来,包括检索与计算等,从而极大的扩大了数据治理的对象范围,实现“数据资源多模化”。

3. 金融数据“智”理的微观表现

从微观的角度来讲,大模型驱动的数据“智”理的具体点可以体现在如下几个方面:

        (1) 数据预处理:在数据预处理领域,大模型可以发挥明显作用。众所周知,经典的数据治理流程中,都无法绕开数据仓库、湖仓平台或者数据资产平台的建设,而这些工作都需要在数据资源进入平台的前或后进行数据预处理,所谓ETL与ELT,这是一项极为繁杂、坚巨并且重要的工作。包括对不完整数据语文的标注;通过缺失值处理、异常值检测、数据一致性检查、数据类型转换、数据标准化/归一化、数据去重、数据合并/编码、离散化等等手段进行数据清洗以提升数据的准确性、完整性和一致性;另外,可能还需要对数据资源进行分类,包括业务分类、技术分类与安全分类。这些工作往往都代表着大量不可避免的手工工作与人工开发,而大模型技术通过学习、并不断迭代积累人的经验,可以很大程度上实现自动化的数据预处理,包括标注、清洗与分类,从而极大程度地提高数据治理的常态化水平与质效。

        (2) 数据质量:除了数据预处理时通过清洗提升数据质量以外,在数据治理流程中,还需要通过数据质量工具检测发现运行流程中的数据质量问题,这种工具也是经典数据治理中的重要环节之一。然而,经典工具往往是通过穷举式规则来实现检测的,先不说这些规则的丰富性、完整性以及在不同单位之间的可迁移性本身就是个问题,当质量问题发现出来以后,工具并不能负责问题的修复,改正问题还是需要人来处理,正所谓“只能发现,不能修正”。大模型技术可以通过对数据资源整体状况的学习,以及对人类修正知识的定向补充,不但可以更大范围、更加方便地发现数据质量问题,而且可以具备自动修正数据质量的能力,并且这些能力可以随着大模型工作时间的积累而持续增长。具体来讲,大模型可以自动识别与修正拼写错误,重复记录,数据格式不一致;还可以通过理解数据的上下文,高效处理较为复杂的数据错误,例如在数据集中时间、数值甚至语义序列突然中断时,通过分析上下文推断填补;对有些复杂问题,大模型可以提出改善建议,然后通过人工来选择解决。

        (3) 数据标准:大模型可以用来推进数据标准的企业级充分贯彻。前文讲过,过去以来的金融数据标准相关工作不能说做的不好,相反来讲,很多标准制定工作其实做的很全面并且实用,但主要的问题是很难大范围贯彻,其中最核心的原因是人:无法让需要贯彻标准的所有环节都能有数据标准专家支持。那么,大模型则可以很好的辅助推进该问题的解决。首先,利用大模型对已经制定好的数据标准进行学习,使得大模型本身成为一个标准专家,然后在企业需要实施标准的所有环节,都通过自然语言交互的方式来咨询与处理数据标准问题,这包括运行中的API对接,以及实时交互中的问答等多种方式。这就好像是为每一个数据开发、运维与使用者都配备了一个数据标准专家,其所有产生的效果可想而知。

        (4) 元数据:数据标准、数据质量与元数据是经典金融数据治理的三大核心,大模型同时还可以用来加强企业元数据管理的能力。通过对企业数据资源、以及人的经验总结进行全面的学习以后,大模型可以辅助完成元数据自动生成,缺失元数据的补充,技术与业务语义的填充,自动生成元数据摘要、关键词描述等工作,从而真正达到智能元数据管理的水平。

        (5) 非结构化数据:如前文所述,对日益增多并且日益重要的非结构化数据,大模型首先可以通过向量化实现非结构化数据的结构化处理,这会真正把非结构化数据与结构化数据管理工具有机融合在一起(而不只是存储一个文件地址指针);更进一步,大模型还可以从非结构化数据中提取出新的数据与知识,如从文音视图中提取表格、标签和摘要,从而使这些数据易于存储、查询和分析;将客户反馈、社交媒体评论和在线论坛的讨论转化为结构化的客户洞察;对病例报告和临床试验结果等进行结构化处理等。很显然,非结构化数据治理功能的具备,会将金融数据治理的能力推进到一个新的阶段。

        (6) 数据整合和关联:大模型还可以帮助发现数据资源之间的关联,不仅仅是结构化数据之间的,而且是文、音、视、图、表格、XML、JSON等各种模态之间数据的内在联系。有大模型的加持,这种工作在即使缺乏明显关联标识的情况下也能有效工作,还可以学习数据之间的复杂关系和模式,揭示不为人知的洞察。而这些能力在之前是很难有效实现的。通过深度广泛的数据整合与关联,可以挖掘出大量过去无法利用的价值数据与知识,这无疑对“以用为核”、以最大化价值释放的为核心目标的现代数据治理实现有着巨大的推动作用。

        (7) 数据增强和合成数据生成:如上还都是利用了大模型超强的分析、挖掘、理解能力,而大模型最强大的“生成数据”能力自然也会极大地提高金融数据治理的水平,或者说将其推进到生成式数据“智”理的新阶段。具体来讲,例如对数据隐私保护和模型训练,往往需要训练数据,这一般都是人工准备与标注的,并且对从事人工的“人”要求又极高,有时需要技术与业务能力兼备,所以工作量极大并果往往效果不佳。现在,企业可以用大模型来学习过去优秀的训练数据集,把好的训练数据集的标准通过提示词或者微调的方式告知大模型,将大量的知识存入向量数据库以备RAG使用等等,这样则可以合成高质量交易数据,合成消费记录、信用记录,不良记录,自动完成准确的样本标注等等;除了用于训练,还可以用来自动生成测试数据,脱敏数据等。很显然,其能力是随着使用与企业业务变化不断自适应与自动加强的,这与依赖于能力静态的工具有着本质性不同的发展前景与地位。

4. 结语

综上所述,大模型完全可以推动传统数据治理向脱离人工的自动化、随着业务变化自主迭代的自适应化的全新智能阶段跃进,以实现一个消费常态化、功能任务化、增效平民化与数据多模化的新一代数据智理“体”系。这其中核心的原因就是:只要是在现实工作与工程中需要依赖人工经验与手工工作的环节,都可以通过大模型预制化、自动化并且持续自适应迭代强化。而“人”的因素其实是长期以来金融数据治理处于“持续关注,一直欠佳”的尴尬境地的核心原因。更进一步讲,数据“智”理体系已经在范围上大大突破了传统数据治理的范畴,而是代表了金融机构在数字化时代的新型“数智融合”数据体系。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/30202.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

[AIGC] MyBatis-Plus中如何使用XML进行CRUD操作?

在MyBatis-Plus中,我们可以非常方便地使用XML进行CRUD(创建、读取、更新、删除)操作。以下是一些基本步骤和示例,希望能帮助到还在初学阶段的您。 文章目录 1. 创建Mapper接口2. 创建Mapper XML 文件3. 调用Mapper方法 1. 创建Ma…

森林之下延迟高如何处理 森林之下联机卡顿的解决方法

森林之下是一款结合了农场模拟、恐怖生存的游戏,玩家需要管理一个被“闹鬼的树林”包围的农场,种植农作物,拯救、驯服、饲养动物,探索被诅咒的森林,并且收集物品来破除诅咒。这款游戏目前已经开放了demo,不…

串口接收异常,接收管脚无法被拉低

场景:调试氧气浓度芯片AOF1010,此芯片通过串口通信,通电后自动通过串口上传数据 问题:环境搭好,通电,没有进串口接收中断 推测: 1)数据没有发送过来? 通过逻辑分析仪检…

面向对象复习(java)

文章目录 包在本地 cmd 编译包规则import(导包) thisthis 访问实例方法this 访问构造方法 supersuper 访问父类构造器super访问父类方法super 访问父类属性 构造方法访问权限封装继承细节方法重写(覆盖)子父类同名变量问题关于子父类方法的继承问题 多态向上转型和向…

Ubuntu安装Vins-Fusion(1) —— Ubuntu18.04安装vins

目录 前言 1、准备1.1 安装ROS1.2 安装 Ceres Solver 2、安装 VINS-Fusion3、测试(EuRoC MAV 数据集)3.1、下载数据集3.2 Monocualr camera IMU3.3 Stereo cameras IMU3.4 Stereo cameras 参考 前言 VINS-Fusion 是一种基于优化的多传感器状态估计器&…

Python接口测试实战之搭建自动化测试框架

🍅 视频学习:文末有免费的配套视频可观看 🍅 点击文末小卡片,免费获取软件测试全套资料,资料在手,涨薪更快 一.数据分离:从Excel中读取数据 之前的用例中,数据直接写在代码文件里,不…

C++初学者指南第一步---7.控制流(基础)

C初学者指南第一步—7.控制流(基础) 文章目录 C初学者指南第一步---7.控制流(基础)1.术语:表达式/语句Expressions表达式Statements语句 2.条件分支3.Switching(切换):基于值的分支4.三元条件运算符5.循环迭代基于范围的循环   C…

Java基础 - 练习(三)打印空心菱形

Java基础练习 打印空心菱形&#xff0c;先上代码&#xff1a; public static void diamond() {//控制行数for (int i 1; i < 4; i) {//空格的个数for (int k 1; k < 4 - i; k) {System.out.print(" ");}//控制星星个数的时候和行有关for (int j 1; j <…

linux配置Vnc Server给Windows连接

1. linux 安装必要vnc server和桌面组件 sudo apt -y install tightvncserversudo apt install xfce4 xfce4-goodies2. linux 配置vncserver密码 #bash vncserver参考: https://cn.linux-console.net/?p21846#google_vignette 3. 将启动桌面命令写入.vnc/xstartup # .vnc/x…

fs模块(一)

FS FS 是file system的缩写&#xff0c;fs 模块可以实现与硬盘的交互&#xff0c;例如文件的创建、删除、重命名、移动&#xff0c;还有文件内容的写入、读取&#xff0c;以及文件夹的相关操作。在 Node.js 种&#xff0c;fs 模块提供了异步和同步两种方式操作文件。 基本使用…

TIME_WAIT的危害

前言 该文章主要讨论下TIME_WAIT的存在意义和潜在危害&#xff0c;以及解决措施。 具体内容 首先看一下下面这幅图 这幅图来自《TCP IP详解卷1&#xff1a;协议 原书第2版中文》TCP状态变迁图。 TIME_WAIT存在意义 可靠的终止TCP连接。 保证让迟来的TCP报文有足够的时间被…

【YOLOv10改进[注意力]】添加注意力CascadedGroupAttention(2023) + 含全部代码和详细修改方式 + 手撕结构图 + 全网首发

本文将进行使用注意力CascadedGroupAttention的实践,助力YOLOv10目标检测效果的实践,文中含全部代码、详细修改方式以及手撕结构图。助您轻松理解改进的方法。 改进前和改进后的参数对比: 目录 一 CascadedGroupAttention 二 使用注意力CascadedGroupAttention 1 整体…

KVB投资安全小知识:你知道情绪面、技术面与基本面的关系吗?

摘要&#xff1a;当涉及到金融市场分析时&#xff0c;情绪面、技术面和基本面是三个重要的方面。它们相互交织&#xff0c;共同影响着市场的走势和投资者的决策。下面我来详细解释它们之间的关系。 情绪面的影响 情绪面指的是投资者情绪和市场情绪&#xff0c;它反映了市场参与…

springboot+vue+mybatis酒店管理系统+PPT+论文+讲解+售后

基于Spring框架的小型宾馆旅客信息管理系统采用B/S结构、java开发语言、以及Mysql数据库等技术。系统主要分为管理员和用户二部分&#xff0c;管理员&#xff1a;首页、个人中心、用户管理、客房类型管理、客房信息管理、客房预订管理、入住登记管理、退房评价管理、系统管理&a…

深度解析服务发布策略之滚动发布

目录 什么是滚动发布 滚动发布的优点 滚动发布的注意事项 滚动发布的实现步骤 小结 在软件开发和运维中&#xff0c;发布新版本是一个风险较高的操作。为了降低风险&#xff0c;提高发布的稳定性和可靠性&#xff0c;通常会采取一系列的技术策略&#xff0c;其中滚动发布&…

QSharedMemory使用详解

QSharedMemory 是 Qt 提供的一个类&#xff0c;用于在多个进程之间共享内存。它可以让您在不同的进程间传递数据&#xff0c;而无需通过文件或网络来进行传输。下面是 QSharedMemory 的详细用法和相关知识点。 一、基本概念 共享内存&#xff1a;共享内存是一块可以被多个进程…

UML的9中图例概述

1. 用例图 (Use Case Diagram) 用例图描述了系统与外部用户&#xff08;参与者&#xff09;之间的交互。它主要用于捕捉系统的功能需求。 - 主要元素&#xff1a;用例&#xff08;Use Case&#xff09;、参与者&#xff08;Actor&#xff09;、关联&#xff08;Association&…

Qt6之调色板QPaletee

提示&#xff1a;文章写完后&#xff0c;目录可以自动生成&#xff0c;如何生成可参考右边的帮助文档 文章目录 前言Qt之调色板 QPalette什么是 QPalette&#xff1f;QPalette 的作用如何使用 QPaletteQPalette可设置的部分常规操作示例代码和运行效果图 总结 前言 在开发 Qt …

数据治理:数据提取过程中的合规性与安全性

数据治理&#xff1a;数据提取过程中的合规性与安全性 随着数字化时代的到来&#xff0c;数据已经成为企业运营和决策的核心驱动力。然而&#xff0c;在数据提取的过程中&#xff0c;确保数据的合规性和安全性成为了企业面临的重要挑战。数据治理作为一种系统的方法&#xff0…

【C语言】C语言入门宝典:核心概念全解析

. C语言专栏 | C专栏 &#x1f449; 个人主页 &#x1f448; 前言 此篇文章我们主要是宏观的了解一下什么是C语言&#xff0c;C语言里面有那些知识点&#xff0c;所有的知识点我们此篇只是以入门为主&#xff0c;点到为止&#xff0c;简单易懂&#xff0c;后期的文章会一 一详…