YashanDB:潜心实干,数据库核心技术突破没有捷径可走

都说数据库是三大基础软件中的一块硬骨头,技术门槛高、研发周期长、工程要求高,市场长期被几大巨头所把持。

因此,实现突破一直是中国数据库产业的夙愿。自上个世纪80年代起,中国数据库产业走过艰辛坎坷的四十余载,终于拥有一席之地。但当中国逐渐成长为全球最大数据圈之际,中国数据库产业又面临着全新局面:

一方面,数字经济带来持续且丰富的数据库需求,中国数据库市场的未来普遍被看好;另一方面,市场涌现出上百家数据库公司,重复建设的现象突出,出现一定的乱象;更加重要的是,面对日趋复杂且多样的数据处理需求,数据库理论和核心技术亟待突破,以更好适应未来市场需求。

洗尽铅华始见金,中国数据库产业之路该走向何方?近日深圳计算科学研究院(以下简称深算院)YashanDB团队接受大数据在线的专访,畅谈中国数据库产业发展等话题。YashanDB产品总监王南认为数据库的发展必须突破关键核心技术,唯有潜心实干才是出路。目前,YashanDB正积极探索一条产学研用的新路,即致力于数据库理论与核心技术的突破,利用前沿研究成果,紧密贴合市场需求,打造出世界一流的数据库产品。

野蛮生长不可取

IDC数据显示,2022年中国关系型数据库市场规模为34.3亿美元,同比增长23.9%;到2027年,规模有望达到102.7亿美元,年复合增长率为24.5%。中金研究报告也显示,2023-2027年数据库整体国产替换市场空间约400亿元。

毋庸置疑,中国数据库市场潜力巨大。与此同时,信通院《数据库发展白皮书》中提到,中国数据库公司数量已达到150家,数据库产品更是高达238款。在外部环境不确定性持续增加的大背景下,百花齐放的确让市场欣欣向荣,却也让野蛮生长和重复建设的现象逐渐突出。

作为基础软件,数据库有其自身规律,短时间涌现出如此数量的公司可能会造成两个挑战:

其一、短期资本涌入造成繁荣的假象,但市场总体规模体量并不足以养活如此多公司,多数公司未来前景存疑;其二、数据库是一项需要持续投入的基础软件领域,重复建设会让市场人才、资金走向割裂,整体竞争力受损。

再仔细研究中国数据库公司,大部分跟MySQL、PostgreSQL两大开源数据库有着千丝万缕的联系。不可否认,开源在推动中国数据库产业高速发展中发挥着关键性作用,也绝对是数据库产业未来重要的发展趋势之一。但开源≠免费,在云计算兴起的当下,甚至频出各种利益纠葛,像MySQL的GPL协议在开源协议中要求最为严格,未来如何发展取决于Oracle的态度。如果通过利用开源快速包装出“速成”产品,以达到抢夺市场的目的,这种做法未来存在巨大风险。

当下,这种“走捷径”的做法已产生一定影响。例如,CSDN 《2022-2023 中国基础软硬件-数据库开发者调查报告》显示,只有31%的开发者对国产数据库持正面看法,69%的开发者均对国产数据库持负面看法。

“数据库等基础软件没有捷径可走。数据库要想持续发展,需要有足够的战略定力,围绕理论创新与技术突破,才能真正解决数据库的基本问题。”YashanDB产品总监王南如是说。

数据库核心技术突破没有捷径可走

本质上,数据库属于软件重工业,工程化程度极高,投入大、见效慢,并且回报带有极大不确定性。要想在数据库领域有一番作为,需要直面资金、技术、人才和商业化四个最为关键的挑战。

例如,数据库的研发需要持续投入大量资金,投入少、依靠开源“走捷径”,本质上很难获得核心竞争力,又如面临核心内核人才不足、商业化落地等难题。

但最为重要的挑战无疑就是技术突破。当前的数据库市场类似新能源汽车市场早期,市场存在大量公司,但真正掌握核心技术的公司却是不多。在数据库关键技术挑战中,又以数据库理论创新最为关键,核心技术发展有赖于数据库理论创新。

显然,在用户业务类型、场景规模、数据量等均发生翻天覆地变化的今天,数据库的理论创新迫在眉睫,也正是当下中国数据库企业需要潜心实干的方向。只有在数据库理论实现创新与突破,才能点到面带来产品技术的全面变革,从而支撑起未来业务场景的需求。

在当下的中国数据库市场,深算院是为数不多致力于数据库理论研究与创新的机构,深算院的理论研究团队原创有界计算(bounded evaluation)、数据驱动的近似计算(data-driven approximation)、并发事务调度理论等系列创新理论,致力于持续探索数据库核心技术的突破。

像有界计算理论是把大数据计算规约成小数据上的处理,近似计算则可在硬件规模投入有限的情况下,实现大数据精确高效查询。深算院的理论研究成果对于很多身处大数据时代的行业用户极具现实价值。

当前,性能与成本依然是数据库产品选型的核心要素。然而,计算资源的增长速度远远跟不上数据增长的速度,尽管堆叠机器增加算力也难以应对海量数据的计算要求,还会导致成倍的运维问题和成本。而有界计算和近似计算则有望打破传统数据库理论的束缚,让数据库的性能与成本达到新高度。

例如,曾经通过测试发现,在某业务场景数十亿条数据的实时查询场景下,91% 的查询可以用有界计算来解决,并且 70% 以上的查询效率可以提升 25 倍到 14 万倍,剩余 9% 不具备有界计算条件的查询,可以通过数据驱动的近似计算理论来解决。

但从理论创新到落地产品的过程绝非易事,需要持续的验证、迭代和优化。YashanDB研发团队从原型开始验证,历经各种困难与挑战,逐步在YashanDB中融入这两大理论研究成果。在最新的YashanDB 版本中,YashanDB 实现在大数据分析时不需要访问全部数据,只需取其中的小数据集就能得到想要的结果。经过实测,数据量从 10GB 增长到 1TB,YashanDB 响应时延维持亚秒级,性能提升千倍以上且未衰减,性能与成本表现出色。

据悉,YashanDB从核心理论到关键技术均为原创,且高度兼容主流数据库。YashanDB自身产品能力较为全面,基于YashanDB内核,打造出单机/主备、共享集群、分布式等多种产品形态,覆盖OLTP/HTAP/OLAP负载场景,并提供完整的工具体系。王南透露,YashanDB会根据用户场景来推荐不同的产品形态。

“我们以提高单位资源成本下的计算效能为目标设计产品,不是堆叠机器追求‘规模上限’。”王南说道。在OLTP场景中,YashanDB通过细粒度并发控制、免锁事务优化和自适应并发调度算法等技术,最大程度提升单机的事务处理性能,提供可用于生产的Benchmark性能测试配置和测试数据,性能超出主流商业数据库30%以上。

“几年前,大家可能还认为中国数据库内核需要好多年才能成熟起来。”王南表示道,“但现在从咱们一些数据库产品在核心业务场景中的表现来看,数据库核心技术只要沉下心去攻克,是一定能解决的。”

就如国产新能源汽车逐渐率先攻克自动驾驶、智能车机、底盘等核心技术,在市场中脱颖而出一样,扎根关键技术研发与突破的数据库公司,从一开始就把地基打牢固,也有望在未来的市场中逐步实现引领。“数据库不存在弯道超车,掌握核心技术才是关键所在。如果核心技术不足,哪怕一开始‘走捷径’,未来也走不远。”王南如是说。

商业化不能“纸上谈兵”

总体来看,我国数据库产业发展正处于欣欣向荣的阶段,加速由“数量型”向“质量型”关键转变。这其中,商业化就是摆在很多中国数据库公司面前的一道必答题。

在数据库市场,光有突破性的数据库核心技术、能力强大的数据库产品还远远不够,商业化则是将产品技术实现价值化的关键所在。众所周知,我国数据库公司相对还较为年轻,过去由于Oracle等数据库巨头长期占领市场,使得很多中国数据库公司哪怕有诸多技术与产品的创新,却很难有较多机会在金融等核心业务场景中得到验证,从而陷入“技术、产品、场景”不能良性循环的怪圈,商业化之路极为曲折。

如今,随着自主可控技术体系成为中国数字经济发展的重要支撑,中国数据库也迎来了打破怪圈的契机。在王南看来,中国数据库公司需要从场景验证、应用改造、选型成本、服务能力四个方面发力,从而加速推动商业化。

首先是场景验证,比如金融核心业务场景,对于数据库的性能、可靠性、稳定性要求极高,随着硬件层面的自主可控技术逐步进入到核心业务场景中,会带来数据库适配、性能波动等一系列挑战。王南直言:“数据库要想实现规模化复制,必须在关键行业和关键场景中去验证,一步一步往前走,才能在行业广度、业务场景中做到规模复制。”

以YashanDB为例,围绕金融、央国企等重点行业的等他客户和重点场景已经做了相当范围的覆盖和验证。

其次是应用改造的挑战。像银行等金融机构,由于历史积累丰富、业务系统庞杂,比如分布式架构的改造,需要解决规模化带来的成本问题,“这是一个关键矛盾,对于数据库公司、用户等都是巨大挑战。”王南补充道。

第三是降低客户选型的成本。由于产品质量参差不齐,客户选型判断成本过高。提供诚实可信的高性价比产品、公正透明的价格、完善的生态体系以及放心省心的服务方是破局之道。

最后则是需要解决好服务能力,目前国内数据库公司普遍面临的困境就是面对场景的复杂性,需要有很重的服务投入,对于DBA团队极为倚重。

相比于其他商业数据库公司,依托深算院,YashanDB作为产学研“一体化”数据库的代表,其商业化之路更加为业界所关注。王南介绍,YashanDB拥有深算院背后强大的科研资源,未来同样希望加速商业化,将数据库领域好的创新实现市场化,为中国企业的数字化转型带来更多价值。据悉,YashanDB接下来会进一步加速市场化和商业化进程,产品化、重点行业和生态合作伙伴布局也在紧锣密鼓和有条不紊地推进中。

“我们有足够的信心和战略定力把YashanDB做好!”王南最后表示道。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/70545.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【数据结构】二叉搜索树——二叉搜索树的概念和介绍、二叉搜索树的简单实现、二叉搜索树的增删查改

文章目录 二叉搜索树1. 二叉搜索树的概念和介绍2. 二叉搜索树的简单实现2.1二叉搜索树的插入2.2二叉搜索树的查找2.3二叉搜索树的遍历2.4二叉搜索树的删除2.5完整代码和测试 二叉搜索树 1. 二叉搜索树的概念和介绍 二叉搜索树又称二叉排序树,它或者是一棵空树&…

【Spring 事务和事务传播机制】

目录 1 事务概述 1.1 为什么需要事务 1.2 事务的特性 1.3 Spring 中事务的实现 2 Spring 声明式事务 2.1 Transactional 2.2 Transactional 的作用范围 2.3 Transactional 的各种参数 2.3.1 ioslation 2.4 事务发生了异常,也不回滚的情况 异常被捕获时 3 事务的传…

oracle数据库给用户授权DBA权限Oracle查看哪些用户具有DBA权限

oracle数据库给用户授权DBA权限 步骤一:以sysdba身份登录到Oracle数据库 在授予DBA权限之前,我们首先要以sysdba身份登录到Oracle数据库。使用以下命令登录: sqlplus / as sysdba步骤二:创建用户(如有用户跳过&#…

通过 Blob 对二进制流文件下载实现文件保存下载

原理&#xff1a;前端将二进制文件做转换实现下载: 请求后端接口->接收后端返回的二进制流(通过二进制流&#xff08;Blob&#xff09;下载,把后端返回的二进制文件放在 Blob 里面)->再通过file-saver插件保存 页面上使用&#xff1a; <span click"downloadFil…

Linux: memory: memblock: debug

文章目录 代码memblock=debug实例log代码 将内存相关的一些日志打开: static int __init early_memblock(char *p) {if (p && strstr(p, "debug")

如何使用API数据接口给自己创造收益

使用API数据接口创造收益的方法有很多&#xff0c;以下是一些常见的方法&#xff0c;并附有代码示例&#xff1a; 一、数据分析与预测 通过获取API数据接口中的大量数据&#xff0c;我们可以进行深入的数据分析&#xff0c;并利用这些数据来预测未来的趋势和行为。例如&#…

作为产品经理,有必要考PMP或者NPDP么?

产品经理的核心竞争力是什么? 三点&#xff1a;知识、能力和决策 懂得越多&#xff0c;能力越强&#xff0c;决策越正确&#xff0c;核心竞争力越强。一般来说&#xff0c;看的越多&#xff0c;做的越多&#xff0c;实践出经验才是王道&#xff0c;但是&#xff0c;总有看不…

智慧物流发展的重要推动力量:北斗卫星导航系统

随着经济的快速发展和电商的普及&#xff0c;物流行业的规模不断扩大&#xff0c;对物流运输的效率和安全性也提出了更高的要求。传统的物流运输方式存在着效率低下、信息不对称、安全隐患等问题&#xff0c;因此发展智慧物流已经成为物流行业的必然趋势。智慧物流可以通过先进…

力扣(LeetCode)算法_C++—— 存在重复元素

给你一个整数数组 nums 。如果任一值在数组中出现 至少两次 &#xff0c;返回 true &#xff1b;如果数组中每个元素互不相同&#xff0c;返回 false 。 示例 1&#xff1a; 输入&#xff1a;nums [1,2,3,1] 输出&#xff1a;true 示例 2&#xff1a; 输入&#xff1a;nums …

立晶半导体Cubic Lattice Inc 专攻音频ADC,音频DAC,音频CODEC,音频CLASS D等CL7016

概述&#xff1a; CL7016是一款高保真USB Type-C兼容音频编解码芯片。可以录制和回放有24比特音乐和声音。内置回放通路信号动态压缩&#xff0c; 最大42db录音通路增益&#xff0c;PDM数字麦克风&#xff0c;和立体声无需电容耳机驱动放大器。 5V单电源供电。兼容USB 2.0全速工…

深度学习面试八股文(2023.9.06持续更新)

一、优化器 1、SGD是什么&#xff1f; 批梯度下降&#xff08;Batch gradient descent&#xff09;&#xff1a;遍历全部数据集算一次损失函数&#xff0c;计算量开销大&#xff0c;计算速度慢&#xff0c;不支持在线学习。随机梯度下降&#xff08;Stochastic gradient desc…

C++内存分区

一、C程序执行时&#xff0c;将内存大方向划分为4个区域 代码区&#xff1a;存放函数体的二进制代码&#xff0c;由操做系统进行管理&#xff1b;全局区&#xff1a;存放全局变量和静态变量以及常量&#xff1b;栈区:由编译器自动分配释放&#xff0c;存放函数的参数值、局部变…

基于vue-cli创建后台管理系统前端页面——element-ui,axios,跨域配置,布局初步,导航栏

目录 引出安装npm install安装element-ui安装axios 进行配置main.js中引入添加jwt前端跨域配置 进行初始布局HomeView.vueApp.vue 新增页面和引入home页面导航栏总结 引出 1.vue-cli创建前端工程&#xff0c;安装element-ui&#xff0c;axios和配置&#xff1b; 2.前端跨域的配…

记录学习--字节码解析try catch

1.示例代码 Testpublic void someTest() {String s "111";try {s "222";int i 1/0;} catch (Exception e){e.printStackTrace();System.out.println(s);}System.out.println(s);}2.示例代码对应的字节码 0 ldc #2 <111>2 astore_13 ldc #3 <22…

“深入理解SpringMVC的注解驱动开发“

目录 引言1. SpringMVC的常用注解2. SpringMVC的参数传递3. SpringMVC的返回值4. SpringMVC页面跳转总结 引言 在现代的Web开发中&#xff0c;SpringMVC已经成为了一个非常流行和强大的框架。它提供了许多注解来简化开发过程&#xff0c;使得我们能够更加专注于业务逻辑的实现…

【网络编程】网络基础概念

(꒪ꇴ꒪ )&#xff0c;Hello我是祐言QAQ我的博客主页&#xff1a;C/C语言&#xff0c;数据结构&#xff0c;Linux基础&#xff0c;ARM开发板&#xff0c;网络编程等领域UP&#x1f30d;快上&#x1f698;&#xff0c;一起学习&#xff0c;让我们成为一个强大的攻城狮&#xff0…

【python】TCP socket服务器 Demo

目录 一、单线程服务器 二、多线程服务器 三、多线程服务器&#xff08;发送和接收分离&#xff09; 一、单线程服务器 说明&#xff1a;只能连接一个客户端 import socket,binascii# 创建一个 TCP 套接字 server_socket socket.socket(socket.AF_INET, socket.SOCK_STRE…

智能网联汽车电子电气架构

关键核心技术名称&#xff1a; 智能网联汽车电子电气架构 必要性和国内外技术成熟性简介 随着汽车智能化、网联化的发展趋势&#xff0c;车辆的电子化程度逐渐提高&#xff0c;车载传感器和控制器的数量越来越多&#xff0c;要求必须开发满足智能网联汽车新需求的新一代电子…

计算机组成原理知识——CPU结构组成和功能、堆栈、RISC、

文章目录 前言一、CPU组成二、指令执行步骤1、取指Instruction Fetch/IF2、译码Instruction decode/ID3、访存Memory/MEM4、执行Execute/EX5、写回Writeback/WB 三、冯诺依曼结构和哈佛结构四、数据结构中的堆栈 VS 程序内存中的堆区和栈区1、数据结构的堆栈2、C语言程序的内存…

nas汇编程序的调试排错方法

nas汇编程序的调试排错方法&#xff1a; 1、查找是哪一步错了 2、查看对应的*.lst文件&#xff0c;本例中是"asmhead.lst" 3、根据*.lst文件的[ERROR #002]提示查看源码&#xff0c;改错。 4、重新运行编译&#xff0c;OK 1、查找是哪一步错了&#xff1a; nask.ex…