大模型和数据库最新结合进展

写在前面

本文主要内容是上次接受 infoQ 访谈,百度智能云朱洁老师介绍了大模型和 AI 结合相关话题,这次整体再刷新下,给到对这个领域感兴趣的同学。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

引言

AI 和数据库结合是个老调重弹的事情,主要两个方向,一个 DB4AI,另外一个是 AI4DB。大模型没有出来之前,这块其实就有不少实践。比如用AI 来解决数据库的一些运维问题,比如磁盘自动扩容,资源瓶颈自动扩容等。以及DB 的数据赋能给 AI 应用。在这些最常见的探索之后,应该说AI 和数据库的结合碰到了瓶颈,又慢慢冷了下来。

大模型出来之后,因为大模型在理解、生成、逻辑和记忆四大能力上和原来 AI 技术有本质的区别,所以业界对AI 和数据库能碰撞出什么火化充满了期待。

本文就是探讨大模型出来之后,所以数据库和大模型数据库结合这块的最新发展以及未来趋势。尤其是在过去一年里面大模型快速发展,如长文本能力,对于的数据库也快速发展,比如向量数据库,多路召回,更强性能等。应该说两者是相辅相成,未来可期。

图片

大模型和数据库结合最新的一些进展

1、大模型和数据库结合主要方向

大模型对数据库技术带来的机遇是远大于挑战的。

传统数据库技术或者大数据技术处理的还是以结构化数据为主,或者要把非结构化数据先预处理成结构化数据才好处理。但事实上,非结构化数据才是最自然,体量最大的数据。大模型技术让非结构化数据有新的处理方法,放大非结构数据的价值,因此也带来了底层数据库更多的发挥空间。

大模型对数据库的影响主要可以从两个方面看,

  • 一个是 DB4AI,主要是向量数据库技术。通过向量数据库解决大模型知识更新不及时,幻觉问题,以及缺乏企业内部知识,也无法进行细粒度安全管理等问题。

  • 另一个是 AI4DB,通用大模型技术对数据库本身进行优化,主要方向包括数据库自动运维,SQL 生成,SQL 优化,智能问答等等,另外还有一个更大的提升是,大模型改进了和人的交互方式,所以未来一些周边的运维和辅助工具的使用体验和效率通过大模型的结合得到质的提升。

2、DB4AI 主要发展

百度智能云发布了 VectorDB 1.0,向量数据库是企业不可或缺的知识库核心组件,它针对传统知识库问答系统遇到的性能瓶颈、维护挑战及规模限制等问题提供了有力解决方案。全新发布的百度向量数据库 VectorDB 1.0,不仅集成了全面的运维控制和安全防护能力,还兼容了千帆、LangChain 等主流生态系统,能够帮助企业轻松管理数以千万计的文档知识,最大支持百亿向量存储规模以及毫秒级的向量检索速度。同时,相比同类型开源产品,VectorDB 1.0 性能最高提升 10 倍。

3、向量技术和大模型搭配主要解决什么问题

大模型技术让非结构化数据有了新的应用空间,数据库变化比较大的是对文本等非结构化数据处理,以及未来甚至图片,视频等多模的数据。

目前这块发展很快,主要包括文本拆分,怎么 Embedding 多模数据,怎么实现多路召回,以及向量引擎通过 GPU ,以及更好数据组织模式来实现高性价比等。

4、大模型技术对传统数据库的提升主要在哪些方面

大模型属于人工智能领域的一个重要组成部分。现在一般说大模型是指生成式 AI 技术(GenAI)。

在数据库领域一直使用 AI 技术,传统上主要是一些预测算法,分类算法这些,解决比如运维的问题。大模型诞生之后,在代码生成,知识处理方面相比传统 AI 技术有了革命性提升,但是在一些传统系统运维,调优方面还是传统算法实现更简单,效率更高。

因此大模型技术更多的是在原来的技术的基础上更深入的解决原来不好解决的代码生成,知识管理等。对原有技术是一个非常大的补充,提升和扩展。

各个厂家都在进行相应的尝试和布局。当前比较创新的数据库和大模型结合的案例和应用有:

  • 智能问答:通过大模型技术解决数据库运维问题,DBA 值班等。

  • 代码生成 & 翻译:自然语言到 SQL(NL2SQL),或者把一种 SQL 翻译成另外一种,典型的 Oracle 翻译成 MySQL 之类。

  • SQL 优化:改写、注释、纠错、解释,补全

  • 智能问数:自然语言询问,内部通过大模型转成 SQL,查询出结果,然后大模型再总结以报表,报告形式展示出来。

5、AI4DB 主要发展

百度智能云发布了数据库智能驾驶舱(Database Smart Cockpit,DBSC),这个服务是利用大模型技术解决数据库运维,安全,智能问答的能力。通过内置的百度文心大模型能力,再加上百度积累的数据库运维知识库等,帮助用户回答云原生数据库 GaiaDB、MySQL、Redis 等数据库产品的各种使用场景复杂问题,以及显著降低异常问题定位时间,以及提升 SQL 优化效率等。目前这个服务在百度内部已经成功帮助 DBA 团队降低超过 50% 的运维工作量。

6、在 AI 与数据库的结合中,百度智能云的主要策略

AI 技术和数据库技术都在快速发展过程中,我们几个主要的策略有:

  • 坚持技术和场景结合的原则:技术只有和场景深度结合,才容易成熟,以及真正解决问题。因此我们对大模型的应用并不追求尝鲜,一定是选择可以和场景深度结合,各方面条件成熟,以及内部深度使用之后再给到我们的客户。

  • 坚持技术的普惠的原则:普惠核心意味着要让更多用户,更多场景可以使用。对数据库技术来说主要体现在两点:首先我们在设计的时候就会基于通用硬件去设计,云上,云下都可以部署,大客户,小客户都能用。这个体现在我们的 VectorDB,DBSC,GaiaDB 等多个产品中。另外一个核心是坚持起步门槛低,为了让更多用户用到,我们 VectorDB,DBSC 目前都提供了免费版本,让用户可以直接使用。也欢迎大家到百度智能云上选择相应的免费版本,体验最新大模型加持的能力。

  • 坚持开放的原则:除了我们自研之外,我们也非常欢迎更多的第三方厂商和我们一起共建,或者集成我们的产品。

7、对未来的展望

这个领域还在一个刚起步和快速发展阶段,各种概念层出不穷,当前的能力也有非常大的提升空间,所以未来还是有非常大的想象空间。我觉得下一个阶段的发展,核心有以下:

  • 已有产品的成熟,随着技术发展,使用者越多,会更催熟当前的产品,更深度的解决客户实际场景问题。

  • 多模态支持:当前技术处理文本为主,未来多模态的能力会越来越强,也会在这个基础上诞生更多的应用。

当前,百度智能云云数据库特惠专场开始!热销规格新用户免费使用,欢迎参与!

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/37860.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

最逼真的简易交通灯设计

最逼真的简易交通灯设计 需要资料的请在文章末尾获取(有问题可以私信我哦~~) 01 资料内容 Proteus仿真文件程序源码实物制作,代码修改,功能定制(需额外收费,价格实惠,欢迎咨询) …

实验场:在几分钟内使用 Elasticsearch 进行 RAG 应用程序实验

作者:来自 Elastic Joe McElroy, Serena Chou 什么是 Playground(实验场)? 我们很高兴发布我们的 Playground 体验 —- 一个低代码界面,开发人员可以在几分钟内使用自己的私人数据探索他们选择的 LLM。 在对对话式搜…

41割队伍

上海市计算机学会竞赛平台 | YACSYACS 是由上海市计算机学会于2019年发起的活动,旨在激发青少年对学习人工智能与算法设计的热情与兴趣,提升青少年科学素养,引导青少年投身创新发现和科研实践活动。https://www.iai.sh.cn/problem/387 题目描述 给定 𝑛n 个数字 𝑎1,�…

Hi3861 OpenHarmony嵌入式应用入门--LiteOS Semaphore做同步使用

信号量作为同步使用 创建一个Semaphore对象,并指定一个初始的计数值(通常称为“许可”或“令牌”的数量)。这个计数值表示当前可用的资源数量或可以同时访问共享资源的线程数。当一个线程需要访问共享资源时,它会尝试从Semaphore…

加油站可视化:打造智能化运营与管理新模式

智慧加油站可视化通过图扑 HT 构建仿真的三维模型,将加油站的布局、设备状态、人员活动等信息动态呈现。管理者可以通过直观的可视化界面实时监控和分析运营状况,快速做出决策,提高管理效率和安全水平,推动加油站向智能化管理转型…

后端之路第三站(Mybatis)——结合案例讲Mybatis怎么操作sql

先讲一下准备工作整体流程要做什么 我们要基于一个员工管理系统作为案例,进行员工信息的【增、删、改、查】 原理就是用Mybatis通过java语言来执行sql语句,来达到【增、删、改、查】 一、准备工作 1、引入数据库数据 首先我们把一个员工、部门表的数…

【51单片机入门】速通定时器

文章目录 前言定时器是什么初始化定时器初始化的大概步骤TMOD寄存器C/T寄存器 触发定时器中断是什么中断函数定时器点亮led 总结 前言 在嵌入式系统的开发中,定时器是一个非常重要的组成部分。它们可以用于产生精确的时间延迟,或者在特定的时间间隔内触…

Java--常用类APl(复习总结)

前言: Java是一种强大而灵活的编程语言,具有广泛的应用范围,从桌面应用程序到企业级应用程序都能够使用Java进行开发。在Java的编程过程中,使用标准类库是非常重要的,因为标准类库提供了丰富的类和API,可以简化开发过…

【接口自动化测试】第三节.实现项目核心业务接口自动化

文章目录 前言一、实现登录接口对象封装和调用 1.0 登录接口的接口测试文档 1.1 接口对象层(封装) 1.2 测试脚本层(调用)二、课程新增接口对象封装和调用 2.0 课程新增接口的接口测试文档 2.1 接口对象层…

AVL树模拟

1.概念 虽然二叉搜索树可以缩短查找的效率,但如果数据有序或者接近有序时二叉搜索树树将退化为单支树,查找元素相当于在顺序表中搜索元素,效率低下。AVL 树是具有一下性质的二叉搜索树: 1.它的左右子树都是AVL树 2.左右子…

Mac 如何安装 wget

1.安装 Homebrew2.安装 wget3.检测 wget 是否安装成功 1.安装 Homebrew 在安装 wget 之前需要安装一个适用于 mac 的包管理器 Homebrew,打开 mac 终端执行如下命令进行安装: /usr/bin/ruby -e "$(curl -fsSL https://cdn.jsdelivr.net/gh/ineo6/h…

新手第一个漏洞复现:MS17-010(永恒之蓝)

文章目录 漏洞原理漏洞影响范围复现环境复现步骤 漏洞原理 漏洞出现在Windows SMB v1中的内核态函数srv!SrvOs2FeaListToNt在处理FEA(File Extended Attributes)转换时。该函数在将FEA list转换成NTFEA(Windows NT FEA)list前&am…

【Golang - 90天从新手到大师】Day14 - 方法和接口

一. go方法 go方法:在函数的func和函数名间增加一个特殊的接收器类型,接收器可以是结构体类型或非结构体类型。接收器可以在方法内部访问。创建一个接收器类型为Type的methodName方法。 func (t Type) methodName(parameter list) {}go引入…

解决“Duplicate keys detected: ‘ ‘.This may cause an update error.”问题

问题原因 出现“Duplicate keys detected”的错误,通常表示在v-for指令中使的:key绑定值有重复。 如果前端是静态数据,一般能自我避免:key绑定值有重复。如果前端是绑定的动态数据,那么需要另外提供一个唯一的键。 在这个例子中&#xff0c…

【LeetCode】接雨水

目录 一、题目二、解法完整代码 一、题目 给定 n 个非负整数表示每个宽度为 1 的柱子的高度图,计算按此排列的柱子,下雨之后能接多少雨水。 示例 1: 输入:height [0,1,0,2,1,0,1,3,2,1,2,1] 输出:6 解释&#xff…

【UML用户指南】-23-对高级行为建模-状态机

目录 1、概述 2、状态 2.1、状态的组成 3、转移 3.1、转移的组成 4、高级状态和转移 4.1、进入效应和退出效应 4.2、内部转移 4.3、do活动 4.4、延迟事件 4.5、子状态机 5、子状态 5.1、非正交子状态 5.2、历史状态 5.3、正交子状态 6、分叉与汇合 7、主动对象…

GOROOT GOPATH GOPROXY GO111MODULE

GOROOT GOROOT代表Go的安装目录。可执行程序go(或go.exe)和gofmt(或gofmt.exe)位于 GOROOT/bin目录中。 配置GOROOT环境变量,其值为Go的安装目录;然后在环境变量PATH中添加GOROOT/bin路径。 注意:GOROOT变量只是代表了安装目录,不…

【面试题】信息系统安全运维要做什么

信息系统安全运维是确保信息系统稳定、可靠、安全运行的一系列活动和措施。 其主要包括以下几个方面: 1.系统监控: 实时监测信息系统的运行状态,如服务器的性能指标、网络流量、应用程序的运行情况等。通过监控工具,及时发现系统…

企业数据治理的下一步是数据资产管理?

随着信息技术的飞速发展和数字化转型的深入推进,企业数据已成为驱动业务增长和创新的核心要素。当企业数据治理工作取得显著成效后,如何进一步发挥数据的价值,实现数据资产的有效管理,成为企业面临的重要课题。 数据治理的基石作用…

学习感悟丨在誉天学习数通HCIP怎么样

大家好,我是誉天学员的徐同学,学习的数通HCIP课程。 在学校的时候,听说下半年就要出去实习了,心中坎坷不安,现在我学到的知识远远不够的。然后就想着学点东西充实一下自己的知识面和专业能力,有一次和同学谈…