大家都在谈数据要素,但数据交易市场惨淡,原因在哪?有解吗?

两周前,我在南宁参加中国计算机学会数据库战略研讨会,与会的专家、学者就数据要素的确权、定价、流通、安全、供需匹配等问题做了很多讨论。由于政府的推动,国家数据局的成立,当前数据资产的热度很高,尤其是大型央企、国企、城市基础设施运营公司,还有地方政府都在组成工作组推动当地数据资产入表,数据资产化已成为企业数字化转型的重要组成部分。继土地、劳动力、资本、技术四大生产要素之后,数据要素已成为第五大生产要素。无论是政府、学界还是商界,大家都想在数据要素上挖掘机会。

根据中国信息界发展研究院的报告,2022年中国数据产量达到了8.1ZB,全球占比达10.5%,位居世界第二。这么大的数据规模,加上国家重视以及诸多政策的加持,对应的数据交易市场应该十分火爆才对。但是我们来看看贵阳大数据交易所,这个全国乃至全球第一家大数据交易所成果如何呢?从2015年成立至今,贵阳大数据交易所已快满十年,成立之初在当地政府支持下,其就确定了“布局全国30家交易中心”的战略,并以“汇集1万家大数据交易会员、每年数据清洗交易量1万PB、大数据交易年总额3万亿、围绕交易所平台的创业公司超过1万家”作为中长期目标。但其2023年的年交易额不到30亿人民币,与曾经定下的目标相差了1000多倍。

从市场和政策层面出发,数据作为商品,大数据交易所应该发展的很好,为什么会生意惨淡至极?且贵阳大数据交易所面临的问题并不独特,而是各地数据交易普遍面临的问题,那么数据交易是伪命题吗?未来它的发展路径会如何变化?对企业来说如何才能抢占先机?过去的两周我做了一些思考,借端午节长周末,来分享一下我的思考。

数据交易所的困境分析

在讨论大数据交易所时,首先得提的是它们的数据来源之多样和复杂。这里有来自政府的公开数据,企业自家的内部数据,还有那些通过网络爬虫抓取的数据。质量好坏不一,自然也就影响了数据产品的质量,使得这些产品难以达到一个统一的标准。即使到了2023、2024年,数据产品的基本形态还是没怎么变。主流的还是那些数据集、数据包和数据报告,再加上一些数据服务和工具,整体来说比较简单,增值空间也有限。

举个例子,贵阳大数据交易所的产品线就包括数据集、离线数据包和数据服务等,还额外加了算力和算法模型;深圳的交易所则提供API数据、加密数据、数据集、数据分析报告及数据应用程序,同时也增设了数据服务和工具两大类;上海的数据交易所则主要聚焦在数据集和数据服务上。但仔细一看,这些数据都是离线数据属性

其次不得不提的是数据安全问题,从威胁猎人发布的《2023年第一季度数据资产泄露分析报告》中可以看到,这一个季度就发生了近1000起数据泄露事件,影响了1204家公司和38个行业。黑市数据交易主要还是集中在那些更隐蔽、更方便的匿名社交平台上。而离线数据的特性,导致这一问题一直都是挥之不去的阴影。那么,如何在未来有效地解决和控制数据安全问题,对于各地的数据交易所来说,无疑是个长期且艰巨的挑战

而且,考虑到离线数据交易的特殊性,其实这就是典型的一锤子买卖。肯尼斯·约瑟夫·阿罗,一个诺贝尔经济学奖得主,他在上世纪60年代的作品《不确定性与医疗保健经济学》中就提到了数据交易中存在的信息不对称问题。数据作为一种商品,其特殊性在于买方很难在购买前判断其真实价值。一旦买方掌握了数据内容,他们就可以轻易复制这些数据,从而失去再次购买的需求。这种现象在信息经济学中袒露无遗,被称为“阿罗悖论”。

这种现象指出了数据产品交易的一大困境:买方在未完全获取数据前难以评估其价值,但一旦数据到手,其复制的成本又极低,这让数据的独卖变得非常困难。因此,数据交易的市场机制和其他类型商品的交易机制存在本质的不同,这对数据交易平台的设计和运营提出了更高的要求。

那我们不妨再深思一下,到底什么样的数据是更难以复制,购买方乐意持续付费购买呢?我分析后得出的结论是实时数据。

实时数据交易

实时数据是指数据实时持续不断更新的数据。最典型的实时数据是证券交易数据,大小投资机构以及个人投资者,都需要实时订阅各大证券交易所的数据,了解实时的市场行情,来决定是否买还是卖。

实时数据对于时间十分敏感,而且延时的长短,直接决定了数据的价值大小,超过一定时长的数据虽然可以做历史分析,但商业价值不大。因此实时数据的交易一定是在线实时进行的,无法通过离线方式进行。数据拥有者和使用者之间必须通过数据订阅服务进行,使用者通过一组API来实时获取数据。

不同的实时数据源,根据市场供需关系,可以制定不同的价格。而且支付的费用是按照订阅的时长决定的,使用者对数据的质量和服务不满意,随时可以停止订阅。另外一方面,对于数据提供者而言,实时数据的交易不会是一锤子买卖,因为数据在持续产生,使用者一旦停止付费,就无法继续获得最新的数据。因此实时数据交易,对于买卖双方而言,都是完全可控的,定价不是一个问题。

由于实时数据的交易一定是在线提供的,很容易通过技术手段监测到被订阅的数据流是否在未经许可的情况下,被再次售卖,而且由于服务是持续提供的,对不法分子取证也相对容易,因此数据复制的问题不再是交易中致命的问题,这也从一定层面上解决了离线数据安全以及数据确权的问题。

对于离线数据来说,其存在如何评估、计价和入表的问题,最近很多服务机构介入这些环节。但对于实时数据,这些问题都不存在。订阅的实时数据,原则上是只能记为经营成本的,无法记为资产,因为超过一定的时长,数据的价值就折旧为零了。为充分利用实时数据的价值,数据使用方需要将实时数据集成进自己的运营系统,做出实时决策的。如果购买的实时数据无法提升企业的运行效率,是没有任何价值的。

实时数据的在线交易解决了离线数据交易的几乎所有问题,而且金融证券交易数据的订阅已经被市场证明是成功的商业模式。那么除金融证券市场之外,是否还有其他未被挖掘的市场呢?答案是肯定的。

首先,所有公用事业的数据,包括电力、煤气、自来水、热力等会产生海量的实时数据,这些实时数据可以发布出去,让一些相关的企业依据这些数据做出实时的商业决策,达到运营效率的最大化。比如各大发电厂可以根据国家电网发布的实时的用电数据,来调整自己的电力生产。气象类的数据,对于风电、光伏发电、储能等新能源企业而言,至关重要,因为有了气象数据,就能很好的预测未来几个小时的发电量,结合用电量的预测,就能做出较为精准的调度安排。

阿里、京东、拼多多等电商交易实时数据,在处理加工后,可以实时发布出来。相当多的贸易商、厂商就可以根据某个品类的销量变化,销售额、地域分布等数据,来决定是否继续生产、停产,或推出新的款式,从而调配不同的资源,实现企业运营效率的最大化。随着物联网的推进,几乎所有设备都在联网,从手环、共享出行,到电梯、锅炉、挖掘机等设备等也都在联网。他们采集的数据,经过处理加工后,可以实时发布出来,众多的服务商以及制造商可以订阅这些数据做出正确的商业决策,比如城市规划、店铺选址、物流配送、新品规划、保险、审计等等。

实时数据交易市场的趋势

随着数字化的推进,各行各业都会产生海量的实时数据,各行各业都会依赖自身之外的第三方实时数据来做出更为精准的商业决策,提升运营效率,因此实时数据交易市场一定会越来越大。但这些实时数据的交易会在哪发生呢?会在中国已经设立的众多大数据交易所进行吗?答案是否定的。

一方面,就像证券交易所的数据交易是由证券交易所提供一样,其他行业的实时数据交易大概率是由数据拥有方来提供的,这样才能减少中间环节,保证数据的实时性,而且有利于数据拥有方根据市场供需关系,快速调整交易价格。

另外一方面,与多年前搭建一个证券交易平台相比,现在搭建一个实时数据交易平台的技术门槛已经大幅降低,一百万RMB都不需要,一家企业就可以短时间内搭建出一个私有的实时数据交易平台,对外提供服务。比如采用我们涛思数据开发的TDengine,利用其内建的数据订阅功能就可以迅速提供实时数据交易服务。

实时数据一定是时序数据,一定是随着时间的变化而变化的。TDengine是开源、高效的、具有水平扩展能力的时序数据处理平台。2017年创办涛思数据之初,我已经意识到实时数据分发、分享的价值,因此2018年底发布TDengine的第一个版本时,我们就推出了数据订阅的功能。一旦被订阅的数据有更新,数据就会被实时的推送给数据消费者。不同于流行的Kafka,根据数据使用方的需求,数据拥有方可以使用SQL定义一个主题(topic),来决定数据分发的颗粒度。用户可以订阅整个数据库,也可以订阅部分表、部分列、部分时间段、甚至对原始数据进行加工后再分发,这样数据拥有方最大程度的控制了数据分发的颗粒度以及数据的隐私。数据拥有方还可以根据实时数据分发的颗粒度,制定不同的交易价格,更具市场灵活性。

众多的企业都可以在自己私有化平台上提供自己的实时数据订阅服务,但依然会存在更大的平台,来提供各式各样的实时数据服务,美国snowflake的数据市场便是一例。在中国, 我相信阿里云、腾讯云等云平台都会成为大的数据交易平台,我们涛思数据的TDengine云服务也会是其一。只要数据提供方将采集的实时数据源源不断的写入TDengine的云平台,相应的数据使用方就可以订阅来获取实时数据,极其之简单,而且初期的投入和风险几乎为零。

当然,这些数据交易平台需要遵守国家指定的法律法规、而且采取技术手段来保证数据的隐私和安全。

结语

现有的离线数据的交易有市场,只是由于存在各种问题,增长空间有限。但对于实时数据的在线交易,确权、定价、流通、安全等问题都不存在,而且已被金融证券市场证明是成功的。随着数字化的推进以及国家政策的推动,每家机构或企业都想充分利用能获取能购买的的实时数据实时做出正确的商业决策,来提升系统的运营效率,实时数据交易的市场空间会越来越大。同时,搭建实时数据交易平台的技术门槛大幅降低,任何一家拥有实时数据的企业都可以快速搭建一个交易平台来提供服务,因此数据交易不会仅仅发生在已经建立的大数据交易所内。如果没有任何政策限制,实时数据交易会是百花齐放的局面。

陶建辉

2024年6月10日写于北京望京

点击“阅读原文”,立即体验时序大数据处理平台

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/26222.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0117__ANSI C、ISO C、Standard 是什么关系

【C语言笔记】什么是ANSI C标准?-腾讯云开发者社区-腾讯云 ANSI C、ISO C、Standard 是什么关系?-CSDN博客 滑动验证页面 滑动验证页面

第十三章 组合模式

目录 1 组合模式介绍 2 组合模式原理 3 组合模式实现 4 组合模式应用实例 5 组合模式总结 1 组合模式介绍 组合模式(Composite Pattern) 的定义是:将对象组合成树形结构以表示整个部分的层次结构.组合模式可以让用户统一对待单个对象和对象的组合. 2 组合模式…

【数理统计】5-假设检验、参数与非参数检验

文章目录 一、前言二、参数检验和非参数检验2.1 卡方检验(非参数检验)2.1.1 单因素卡方检验例子2.1.2 双因素卡方检验 2.2 t检验(参数检验)2.2.1 单样本t检验(One-Sample t-Test)2.2.2 独立样本t检验&#…

Rust reqwest 简明教程

概述 reqwest 是 Rust 中一个非常流行和强大的 HTTP 客户端库,它提供了一种简单的方式来发送 HTTP 请求并处理响应。reqwest 支持阻塞和非阻塞(异步)请求,使其适合于各种不同的应用场景。在这篇博文中,我们将详细介绍…

【数据分析】统计学基础及Python具体实现

各位大佬好 ,这里是阿川的博客,祝您变得更强 个人主页:在线OJ的阿川 大佬的支持和鼓励,将是我成长路上最大的动力 阿川水平有限,如有错误,欢迎大佬指正 Python 初阶 Python–语言基础与由来介绍 Python–…

查找最佳分数Π

查找分子或分母不大于一亿的分数Π private static final int MAX_N 100000000;private static void findPIByDivider() {Log.d("findPI", "findPIByDivider start MAX_N" MAX_N);long curtime System.currentTimeMillis();double lastRet 1;int selec…

计算机网络 —— 数据链路层(VLAN)

计算机网络 —— 数据链路层(VLAN) 什么是VLAN为什么要有VLANVLAN如何实现IEEE 802.1Q 我们今天来看VLAN: 什么是VLAN VLAN(Virtual Local Area Network,虚拟局域网)是一种网络技术,它将一个物…

一颗万能的PD协议芯片,能芯Type-C PD协议芯片“ECP5705”, 它是如何实现PD直流风扇应用呢?

文章目录 文章目录 前言 一、PD风扇方案介绍 二、芯片介绍 三、PD风扇-供电方式 四、能芯科技 PD 协议芯片ECP5705-应用场景 总结 前言 随着USB Type-C接口的普及和PD取电芯片的出现,使得小型家电和电动工具可以通过统一的USB Type-C接口进行充电,极大地…

2024年IntelliJ系列最新专业版安装码教程!(持续更新)

本教程适用于 J B 全系列产品,包括 Pycharm、IDEA、WebStorm、Phpstorm、Datagrip、RubyMine、CLion、AppCode 等。 2018-2024 均适用! (直接复制,拿走不谢) 9H1390TRAK-eyJsaWNlbnNlSWQiOiI5SDEzOTBUUkFLIiwibGljZW…

Threejs-05、设置响应式画布与全屏控制。

1、自适应屏幕大小 你会发现,我们前面写好的代码,在页面尺寸发生改变的时候,并不能自适应的改变尺寸,而出现空白或者滚动条突出的情况。所以监听屏幕大小的改变,来重新设置相机的宽高比例和渲染器的尺寸大小,代码如下: // 监听画面变化,更新渲染画面 window.addEven…

MFC绘图

文章目录 消息组成消息的作用获取消息翻译消息常见消息WM_DESTROYWM_SYSCOMMAND 消息循环的阻塞发送消息字符串资源加速键资源GDI绘图对象-画笔位图绘制文本绘制字体模式对话框动态库特点线程创建线程 互斥事件信号量 消息组成 窗口句柄消息ID消息的两个参数消息产生的时间消息…

公路建设中边坡监测规范解析

边坡是山区公路或高速公路建设中的重要工程,但由于地形、地质等原因,边坡往往存在较高的塌方、滑坡、泥石流等风险。因此,边坡监测成为了十分必要的工作。本文将介绍边坡监测规范,希望能对相关工作者提供一些帮助。 点击输入图片描…

618这些卷王显示器,彻底杀疯了

该说不说,今年取消预售模式的第一个 618 终于让我看到了一些年中购物节该有的样子。 小忆估摸着不少同学的钱包君都有在这段时间被狠狠搜刮一番吧。 趁着活动热度还在,咱们今天再给大家添一把火,带来一期有关显示器的专题。 众所周知&#…

littlefs性能分析提升

littlefs性能分析 分析的目的很简单:希望支持掉电安全,或者说具有奔溃一致性特性的文件系统,他的读写速度能得到提升。如果了解了瓶颈所在,也可触类旁通。 本次分析,使用了大量的对比测试: littlefs读&a…

在Visual Studio Code中使用pytest进行AWS Lambda函数测试的最佳实践

背景/引言 在现代软件开发中,自动化测试已经成为保证代码质量的重要一环。对于AWS Lambda函数开发者来说,使用pytest进行单元测试和集成测试是一个高效且可靠的方法。本文将介绍在Visual Studio Code中使用pytest测试AWS Lambda函数的最佳实践&#xff…

RESTful API最佳实践:Python构建指南

目录 一、引言 二、RESTful API设计原则 三、Python构建RESTful API的技术栈 四、Flask构建RESTful API实践 安装Flask 定义路由和资源 处理HTTP方法 错误处理 数据验证和序列化 使用Flask扩展 五、最佳实践案例 七、结论 一、引言 在当今的软件开发领域&#…

SpringBoot 项目创建和 IDEA 常见问题

1、 Cannot save Files 问题(无法自动保存项目文件) Cannot save ....../HelloWord.java. Unable to create a backup file (HelloWord.java~). The file left unchanged. 原因:DIEA无法在保存前备份文件 解决办法:找到 Files --> Settings... -->…

谁是最会写作文的AI“考生”?“阅卷老师”ChatGPT直呼惊艳!

文章推荐 粽叶飘香,端午安康!AI视频送祝福啦~ AI日报|文生语音大模型国内外均有突破,Pika完成6亿新融资,视频大模型也不远了! ⭐️搜索“可信AI进展“关注公众号,获取当日最新AI资讯 一年一…

Claude3 注册及升级教程(包含封号解决方法)

前言 最近大家呼声很高的 Claude3 ,它的 注册以及升级 教程来了!!! (还有封号情况的解决方式放在了后面) 废话不多说,直接进入教程。 Claude 3 注册 前期准备工作 一个国外的邮箱账号&#…

HarmonyOS Next 系列之HTTP请求封装和Token持久化存储(四)

系列文章目录 HarmonyOS Next 系列之省市区弹窗选择器实现(一) HarmonyOS Next 系列之验证码输入组件实现(二) HarmonyOS Next 系列之底部标签栏TabBar实现(三) HarmonyOS Next 系列之HTTP请求封装和Token…