阳振坤:AI 大模型的基础是数据,AI越发达,数据库价值越大

2024年1月12日,第四届OceanBase数据库大赛决赛在北京圆满落幕。在大赛的颁奖典礼上,OceanBase 首席科学家阳振坤老师为同学们献上了一场主题为“爱上数据库”的公开课,他不仅分享了个人的成长历程,还阐述了对数据库行业现状与未来的见解和思考。

图片

阳老师回忆了自己年轻时,与如今的同学们相仿的年纪,追随导师王选院士投身激光照排机研发的岁月。他感慨道:“那时,我们的信息系统与发达国家相比,存在着巨大的差距。虽然时至今日,这样的差距仍然存在,但已经大幅缩小,甚至在不少领域,我们已经实现了超越。”

近年来,人工智能技术迅猛发展,谈及 AI 大模型与数据库的关系,他表示,AI 大模型本身的基础其实还是数据,AI 模型越发达,数据库的价值会越大,数据库的空间也会越大

未来数据库会如何发展?他认为,数据库的形式和功能将发生显著变化。现代数据库应具备两大核心特征:一是强大的海量数据处理能力,二是云数据库服务模式。因此,数据库的发展方向必然是多模一体化,以及具备敏捷伸缩和水平扩展的能力。

精彩节选

1、未来数据库不会消失,但形式和功能会发生显著变化

AI 大模型主要依靠训练的数据、训练的结果,以及和用户的交互,这背后海量数据的处理离不开各种各样的数据库。所以 AI 的模型越发达,我觉得数据库的价值会越大,数据库的空间也会越大。

在可预见的未来里,数据库作为存储、管理和检索数据的核心工具,作用只会更加重要,传统关系型数据库也不再是唯一选择。

NoSQL、NewSQL、分布式数据库等新型数据库将广泛应用,云数据库和 Serverless 架构让用户更多依赖云服务商提供的解决方案,AI 和机器学习的引入将使数据库管理更加自动化。

2、数据库激增、类型多样与实时处理是数据库的三大挑战

今天在数据库领域,关系数据库仍然占很大比例,差不多是 70%。有很多人预测,关系数据库的比例会缩小,我是相反的看法,我觉得关系数据库的比例会变大。

这些年,为满足多样化数据类型和复杂查询需求,NoSQL、NewSQL、KV 等部分替代了传统关系型数据库。一个重要原因是传统的关系型数据库多为单机数据库,扩展能力受限,所以人们才会用 KV、NoSQL 等作为解决方案。但这些系统缺少数据库最根本的东西:ACID,导致它本身带有局限性。

数据库这些年发展还出现了一个现象,就是交易和分析割裂。当数据量不大的时候,可以按照交易的方式进行分析,只是效率低一点。但当数据量大了之后,第一是存储,原来的交易数据库面临存储挑战,更谈不上分析;第二是效率,当数据量增长了 1000 倍,分析的时间不可能随之增加到 1000 倍,这时的分析也就失去了意义。

正是因为如此,现在的业务生产系统中,交易和分析是割裂的,形成两个系统。一旦交易系统的数据发生变化,分析系统也要同步改变。这不仅带来成本增加,复杂性也随之上升。

3、云是未来数据库发展的主要趋势

今天,云在数据库市场里占据主流。左边的图里,蓝色部分云数据库市场份额,黄色部分是线下部署的市场份额。现在,云已经占了超过 60%。从右边的图可以看出,数据库每年的市场增量有 90% 在云上,这意味着随着时间的推移,云数据库的占比会越来越大。

图片

(数据来源:Market Share Analysis:DataBase Management Systems,Worldwide,2023)

为什么云服务发展很快?我觉得有两点:效率和成本。

云上的资源可以很快申请,马上就能得到,时间是以秒计算,而线下部署一台机器再快都是以天计算的。在成本方面,中等规模以下的企业,购买云服务很便宜;对大型、特大型的企业由于规模效应,也能带来成本的节省。这其中最重要的原因就是资源的池化与复用。

以 CPU 为例,绝大部分企业的计算机 CPU 利用率是个位数,不到 10%,造成算力浪费。而云上可以做到 20%,因为各家企业的业务有时高有时低,大家互补起来,提高资源的利用率。同时,云上的存储和人力,也可以通过复用提高利用率。

但是数据库不完全是这样,数据库是个有状态的东西。大家知道一个事务建立连接,它的很多状态你是要保持住的。数据库有敏捷的伸缩能力是一个挑战,但如果你没有伸缩能力,你就做不到资源的复用。

4、OceanBase在走一条传统数据库走不了的路

传统集中式数据库第一没有容量,第二很难能解决行存列存冲突的问题。因为行存便于数据修改,而列存的修改代价非常大。如果一个表有 100 个列,插入或删除一条记录,意味着要在硬盘上做 100 次的读、100 次的写,操作代价非常大,效率也就会非常差。

这个里面涉及到两个问题,一个是分布式一个是敏捷伸缩。如果数据库没有敏捷伸缩的能力,就无法像云那样做到资源复用,例如高德地图的导航,除了早晚高峰,凌晨用的人很少,如果没有弹性能力,就会造成资源浪费。

过去的数据库其实是不具备扩展能力的,新的数据库在朝这个方向努力,OceanBase 现在在很多地方还不如 Oracle,但是我们今天走的是一条传统数据库走不了的路。

传统集中式数据库它没有一个很好的扩展能力,而 OceanBase 这种分布式数据库成长起来,它将成为新一代的数据平台。过去需要搭一个交易数据库和一个大数据系统,而现在可以在一个数据库里实现这些功能,去掉两个系统带来的交互和成本。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/67757.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2.1.3 第一个工程,点灯!

新建工程 点击菜单栏左上角,新建工程或者选择“文件”-“新建工程”,选择工程类型“标准工程”选择设备类型和编程语言,并指定工程文件名及保存路径,如下图所示: 选择工程类型为“标准工程” 选择主模块机型; 选择熟悉的编程语言; 填写工程名,选择存放路径; 确定。 编…

Chrome谷歌浏览器如何能恢复到之前的旧版本

升级了谷歌最新版不习惯,如何降级版本 未完待续。。 电脑中的Chrome谷歌浏览器升级到了最新版本,但是有种种的不适应,如何能恢复到之前的旧版本呢?我们来看看操作步骤,而且无需卸载重装。 怎么恢复Chrome 之前版本&a…

IO进程----进程

进程 什么是进程 进程和程序的区别 概念: 程序:编译好的可执行文件 存放在磁盘上的指令和数据的有序集合(文件) 程序是静态的,没有任何执行的概念 进程:一个独立的可调度的任务 执行一个程序分配资…

LabVIEW处理复杂系统和数据处理

LabVIEW 是一个图形化编程平台,广泛应用于自动化控制、数据采集、信号处理、仪器控制等复杂系统的开发。它的图形化界面使得开发人员能够直观地设计系统和算法,尤其适合处理需要实时数据分析、高精度控制和复杂硬件集成的应用场景。LabVIEW 提供丰富的库…

部署Metricbeat监测ES

官方参考文档 安装Metricbeat curl -L -O https://artifacts.elastic.co/downloads/beats/metricbeat/metricbeat-7.17.27-linux-x86_64.tar.gztar xzvf metricbeat-7.17.27-linux-x86_64.tar.gz设置 Metricbeat连接到 Elasticsearch 进入metricbeat目录配置metricbeat.yml …

高效安全文件传输新选择!群晖NAS如何实现无公网IP下的SFTP远程连接

文章目录 前言1. 开启群晖SFTP连接2. 群晖安装Cpolar工具3. 创建SFTP公网地址4. 群晖SFTP远程连接5. 固定SFTP公网地址6. SFTP固定地址连接 前言 随着远程办公和数据共享成为新常态,如何高效且安全地管理和传输文件成为了许多人的痛点。如果你正在寻找一个解决方案…

为医院量身定制做“旧改”| 全视通物联网智慧病房

随着经济工作会议、卫生健康工作会议、“经济高质量发展成效”系列新闻发布会的依次召开,强基工程、三明医改、儿科和精神卫生服务年、中医药传承创新发展、促进生育、养老服务改革、病房改造提升行动...等关键词正成为新的热点,2025年卫生健康工作面临一…

PHP同城配送小程序

🚀 同城极速达——您生活中的极速配送大师 📱 一款专为现代都市快节奏生活量身打造的同城配送小程序,同城极速达,集高效、便捷、智能于一身,依托ThinkPHPGatewayWorkerUniapp的强大架构,巧妙融合用户端、骑…

ipad和macbook同步zotero文献附件失败的解决办法

背景:我所有的文献及其附件pdf都是在台式机(windows系统),想要把这些文献同步到云上,然后再从云上同步到平板和其他笔记本电脑比如macbook。文献同步虽已成功,但文献附件都无法打开。 平板报错如下&#xf…

个人学习 - 什么是Vim?

观我往旧,同我仰春 - 2025.1.10 声明 仅作为个人学习使用,仅供参考 本文所有解释参考笔者个人理解,最终目的是服务于自我学习, 如果你需要了解官方更规范的解释,请自行查阅 Vim 是什么 Vim 是一个强大的 文本编辑器…

RK3568上电启动流程详解 [十四]

由于 QEMU 在设备仿真方面的能力欠缺,比如我们无法让 QEMU 模拟一个 IIC 设备(除非对 QEMU 的代码动刀子),所以我们需要一个真实的物理环境,这里我使用了烂大街的 RK3568 开发板,我们需要让 X-Hyper 在 RK3…

开关电源基础

文章目录 线性电源与开关电源选用 开关稳压器脉宽调制简化的降压开关电源 开关电源类型输出电压分拓扑分 控制器与稳压器效率与 V o u t V_{out} Vout​ 同步与非同步隔离与非隔离非隔离式拓扑结构隔离式拓扑结构 线性电源与开关电源 线性稳压器就是我们通常说的LDO: 传输元件…

微信小程序-base64加解密

思路:先创建一个base64.js的文件,这个文件可以作为专门加解密的文件模块,需要时就引用;创建好后,引用base64.js里的加解密函数。 注意:引用模块一定要引用正确的路径,否则会报错。 base64.js:…

C++《AVL树》

在之前的学习当中我们已经了解了二叉搜索树,并且我们知道二叉搜索树的查找效率是无法满足我们的要求,当二叉树为左或者右斜树查找的效率就很低下了,那么这本篇当中我们就要来学习对二叉搜索树进行优化的二叉树——AVL树。在此会先来了解AVL树…

四、华为交换机 STP

生成树协议(STP)的核心目的是在存在冗余链路的网络中,构建一个无环的拓扑结构,从而防止网络环路带来的广播风暴等问题 一、STP 原理 选举根桥:网络中的每台交换机都会有一个唯一的桥 ID(BID)&am…

Elasticsearch——Elasticsearch索引管理实战

摘要 本文主要介绍了 Elasticsearch 中索引与索引模板的实战操作。首先讲解了索引管理,包括禁止自动创建索引、索引的格式、创建索引示例、修改索引示例、打开/关闭索引示例、删除索引、查看索引以及 Kibana 管理索引等内容。接着阐述了索引模板管理,涉…

Linux C\C++编程-文件位置指针与读写文件数据块

【图书推荐】《Linux C与C一线开发实践(第2版)》_linux c与c一线开发实践pdf-CSDN博客 《Linux C与C一线开发实践(第2版)(Linux技术丛书)》(朱文伟,李建英)【摘要 书评 试读】- 京东图书 Linu…

4.JoranConfigurator解析logbak.xml

文章目录 一、前言二、源码解析GenericXMLConfiguratorlogback.xml解析通过SaxEvent构建节点model解析model节点DefaultProcessor解析model 三、总结 一、前言 上一篇介绍了logback模块解析logback.mxl文件的入口, 我们可以手动指定logback.xml文件的位置, 也可以使用其它的名…

leetcode刷题记录(七十八)——105. 从前序与中序遍历序列构造二叉树

(一)问题描述 105. 从前序与中序遍历序列构造二叉树 - 力扣(LeetCode)105. 从前序与中序遍历序列构造二叉树 - 给定两个整数数组 preorder 和 inorder ,其中 preorder 是二叉树的先序遍历, inorder 是同一…

包文件分析器 Webpack Bundle Analyzer

webpack-bundle-analyzer 是一个非常有用的工具,用于可视化和分析 Webpack 打包生成的文件。这使得开发者能够更好地理解应用的依赖关系、包的大小,以及优化打包的机会。以下是关于 webpack-bundle-analyzer 的详细介绍,包括它的安装、使用以…