向量数据库,展望AGI时代

无论是向量数据库,还是大模型,归根结底,大家在追捧它时的心态,焦虑大于需求。 向量数据库的热潮,在一定程度上“外化”了人们的焦虑。 

但这并不能否定向量数据库的实际价值,甚至更长远来看,向量数据库正走在证明自己的路上。

作者|思杭 

编辑|皮爷 

出品|产业家 

每逢淘金热,最后的赢家都是卖铲人,而非淘金者。

这是著名的铲子理论。在今年大模型的风口下,向量数据库就成了这把铲子。

在此之前,向量数据库经历了几年的沉寂期,现在似乎终于成为资本的“宠儿”。这个曾经冷却的赛道如今在半年间就收获了10亿元融资,然而,资本“无节制”的追捧对于向量数据库赛道究竟是奖励,还是惩罚?是终于等到机会可以放手一搏?还是前路漫漫,遥遥无期?

判断一条赛道是否真的有潜力,资本的注入虽是前提,但更重要的还有市场的态度。大模型应用的逐步落地于向量数据库而言,无疑是最好的催熟剂。

然而任何新技术的到来,都需要更长的时间才能得到市场的接受。

对此,产业家通过了解多家目前已发布向量数据库的厂商,从他们口中可以窥见出目前的市场态度。

于星环科技而言,从5月份正式发布向量数据库产品至今,已走过近半年的时间。在他们的观察中发现,客户对大语言模型等深度学习应用非常感兴趣。然而,客户目前仍处于学习和选型的阶段。在将新技术引入实际业务之前,客户也需要时间来适应和了解这些新概念。

另外,在近期,腾讯云也更是宣布了向量数据库的产品升级。在发布会当天,腾讯云数据库副总经理罗云对媒体表示,向量数据库产品目前的对外客户数已过千家。

据了解,目前腾讯云在向量数据库的发力点是从已有客户开始拓展,如今客户也正处于拥抱和适应新技术的阶段。

一份关于向量数据库更真实的市场调查是,随着AI应用场景加速落地,据西南证券分析,预计2025年向量数据库渗透率约为30%,其中,中国向量数据库市场规模约为82.56亿元。而据中国信通院测算,到2025年,中国数据库市场规模将达688亿元。这意味着,两年后向量数据库在中国的渗透率将超过10%。

在国内,不少数据库厂商都在尝试推出向量数据库产品,然而从市场验证阶段走向实现盈利,中间还需要一段更漫长的时间。

在此过程中,不乏有质疑声出现。比如前段时间,流数据库公司 RisingWave创始人&CEO吴英骏公开发文“为什么你不应该押注向量数据库?”。在文中,吴英骏表示,尽管他对向量数据库的前景颇有信心,但目前并不鼓励进入向量数据库市场。

向量数据库究竟是虚火过旺还是星辰大海?在向量数据库这条赛道,能否看到更远的未来?在这一命题下,笔者试图从向量数据库的市场应用和演进历程,来揭开这一神秘的面纱。

一、“单打独斗” VS ”团队协作“?

大模型解决的是计算问题,而向量数据库则解决存储问题。

这是从2023年初向量数据库崛起开始,至今为止行业内公认的看法。

“绝大多数人工智能研发的项目从未投入生产,这其中的关键原因是缺乏正确的工具。而大语言模型与非结构化数据的结合,可以为AI应用相关的创业者打开新世界。”

在最吸金的海外向量数据库创业公司中,Qdrant正是其中一家。其CEO兼联合创始人Andre Zayarni对于当前向量数据库与大语言模型的结合,发表了上述观点。

一个更恰当的比喻是,向量数据库充当了连接非结构化数据与AI应用的桥梁作用。也可以说,向量数据库是专为AI量身定制的。

实际上,在Gartner的调查报告中曾表示过当前非结构化数据的增长速度。现在90%的新数据都属于非结构化数据,而非结构化数据的增速更是结构化数据增速的三倍以上。

然而,非结构化数据需求的激增,是否真的能带来向量数据库需求的增长?两者也许未必能划上等号。

在向量数据库赛道中,一个更大的争议点是,是否真的有必要单独设计一款向量数据库的产品,还是仅仅将向量化搜索能力嵌入到传统数据库当中即可。

回答这一问题前,理解究竟什么是向量数据库,以及向量数据库的具体应用则十分必要。

首先,向量数据库的“向量”也可以理解为一种“标签”或某种”属性“。在AI应用中,这些标签可以准确地帮助AI找到问题的答案,从而通过提取标签来提取数据。

一个生动的比喻是,向量就像一张地图,任何对象都可以根据时间序列信息在列表和表格中找到答案。

对此,星环科技基础架构部副总经理刘熙给出了更具体的诠释。与传统的数据库不同,向量数据库处理的是非结构化数据,如图片、视频、长文本和音频等。这些数据的意义不在于其物理表示,并不仅仅是一堆字节,真正有意义的地方在于隐藏的语义。

而向量数据库在其中发挥的作用是,通过AI技术,例如典型的神经网络,来识别、提取和编码非结构化数据背后的语义特征。最终,将这种数据的语义映射或嵌入到高维的向量空间中。

这样做的好处是,将数据库无法直接处理的语义问题,转化为向量空间中的一个搜索问题。简而言之,利用AI技术,将数据库无法直接处理的数据背后的语义,转化为一个结构化的过程。

放在更具体的场景里,比如大语言模型要如何与向量数据库建立连接?

对此,百度智能云大数据技术负责人李莅之前曾表示,从多个方面来看,向量数据库都是大模型的必要设施。首先,大模型自身能够存储的数据是有限的,而大量的知识数据需要被存储起来,以供大模型在问答时使用。

所以向量数据库在其中的作用是,它可以让大模型回答出更实时的内容。倘若让大模型根据最新的消息做回答,这时候就需要通过一些外置的数据库,将这些外置数据库中存储的数据直接输给它,这样大模型就可以结合这些数据去做更准确的回答。

而在大模型与向量数据库结合的应用方面,星环科技提供了一个真实案例。在其开发的金融大模型中,向量数据库就派上了用场。

刘熙告诉产业家,在金融大模型的开发场景中,从财经新闻中通过实体识别算法可以提取企业法人等信息。这些信息并不仅仅是向量,它们更像是一些属性标签。类似地,在以前的电商场景中,对于商品图片,除了特征向量外,还可能提取价格、颜色等结构化标签。

所以,关于单独设计向量数据库产品,还是将向量化搜索能力嵌入到传统数据库中?这是一个”单打独斗“和”团队协作“的话题。

在刘熙看来,基于传统关系型数据库封装向量计算功能,和专业的向量数据库,是两条的技术路线。“如果只是小数据量、访问并发延迟这类要求也不⾼的情况下,从原有数据库⾥封装向量计算的方法可能是可行的;但如果数据规模、访问并发等指标达到一定级别,出于性能、扩展性、资源弹性方面的原因,这时则需要专业的向量数据库。”

同样地,罗云也认为这两者并不互斥。但至于单独设计向量数据库产品,也是一种必然。

具体来看,向量在未来是一种通用人工智能背后的数据格式。也就是说,向量需要桥接关键数据库、非关键数据库等所有结构的数据。但将不同结构的数据放在一个数据管理平台上,最后的结果是,不同数据格式的差异会导致没有办法更好地利用非结构化数据。

因此,在这种模式下,将向量化搜索能力插件到传统数据库中是很难的。比如在一个分布式数据库里去支持向量化插件,让它来处理腾讯云存储的数据,那么它最后也会变成一个独立的向量数据库。

但如果数据库的场景只是在MYSQL里检索部分的向量,那么将向量化搜索能力嵌入传统数据库,这样的解决方案也成立。

对此,李莅的看法是,大模型的核心需求就是向量检索的能力。按逻辑来讲,传统数据库加上向量引擎,这样的解决方案能够行得通。

但问题也在于,业务规模发展壮大后,这时就单独的向量数据库产品,来支持上亿用户访问量的大模型应用。其中,这里面还要各种架构考量,比如存算分离等技术,来保证大模型的规模化扩展。

因此,综合来看,得出的结论则是,短时期内,在大语言模型还未规模化使用时,“团队协作”的方案还能够解决一些问题。

但站在更长远的角度,向量数据库这条赛道一定会在数据库领域中占有一席之地。

二、向量数据库的前世今生

从2017年到2019年,于向量数据库的发展而言,是一段更为重要的时间。

如果说,2023年大模型的爆火,让向量数据库进入到发展期,那么2017~2019年就是它的萌芽期。

根据产业家了解,腾讯云、星环科技、百度智能云、京东科技等也恰都是在这个时间段将向量数据库的相关组件应用到具体的业务之上。

这些都是目前市面上已发布向量数据库产品的厂商。

实际上,2017~2019年这段时间所对应的背景也正是,非结构化数据需求的激增。

一个具有代表性的事件是,2017年,短视频的爆火,催生了新媒体行业,各种结构数据也随之出现。这一现象就导致了不同结构数据的处理需求。

除此之外,京东、腾讯和百度的内部产品也有更多类似的需求。而向量化引擎也正是从这一时间点开始萌芽。

2018年,星环科技内部的AI团队有了向量数据库这一需求。

然而,当时向量数据库的赛道还是一片沉寂,对于是否要专门研发处理向量数据的数据库,星环科技内部也在谨慎考虑。

当时的场景是,星环科技AI团队提出向量数据管理对于其AI业务非常重要。虽然当时有Faiss向量库来处理这类数据,但由于当时Faiss的版本还处于比较早期的阶段,AI团队需要自己编写代码来管理这些向量数据,基本上每个项目都需要重复进行这样的工作,非常费时费力,而且可能无法保证高可用性和安全性。

因此,向量数据库的需求也早在当时就诞生了。和现在不同的是,当时并看不到太大的市场,尽管在星环科技的眼中,这项技术有十足的潜力。

于是,他们内部做出了一个决定。“即使向量数据库可能不能立即商业化,但我们仍然认为有必要为将来做这样的技术储备。”刘熙回忆道。

那时星环还专注于开发多模型统一处理技术,逐步将一些数据库的通用功能,如分布式存储、分布式计算、安全性和资源管理等功能,从紧耦合的架构转化为松耦合的架构,目标是通过统一的架构来更好地支持各种数据库,例如图数据库和时序数据库。

同时,内部团队不需要太多考虑面向客户的问题,需求相对明确,因此星环科技很快就完成了从0到1的第一个版本,并交付给AI团队。之后,随着AI团队的深入使用,星环科技向量数据库开始持续迭代,最终成为一个成熟产品走向市场。

类似的故事也发生在京东、腾讯云和百度智能云的内部。

京东的故事则发生于2017年。当时,团队内部正在着手处理一些以图搜图的应用场景。为了解决京东的搜图场景,团队构建了一个十亿规模的向量数据库,主要的场景是针对京东每天上架大量商品时,需要即时展示商品图片。而实时性成为了当时的重要问题。

而这正是京东向量数据库vearch的诞生背景。

而相比之下,百度智能云的故事就显得不太一样。

2019年,百度智能云也将注意力转移到了向量检索技术的身上。他们计划在Elastic Search公有云场景上去做一些向量的能力。

Elastic Search(ES)属于NoSQL数据库的一种。如果再细分,它是文档型或搜索型数据库。由于有各种搜索场景的需求,所以它会存向量的数据。而既然存了向量的数据,ES又是一个搜索型的数据库,自然也要搜索向量的数据。这也是百度智能云在此基础上加向量检索能力的背景。

具体来讲,百度智能云在ES上做了两点改造:一是支持向量数据列式存储格式,二是基于社区开源的向量相似度引擎做了一些搜索加速的改进。

四年后的今天,向量数据库终于迎来自己了的光辉时刻。而在各种欢呼声和质疑声下,向量数据库也在逐渐完成蜕变。

三、向量数据库,展望AGI时代

从某种程度上而言,无论是向量数据库,还是大模型,归根结底,大家在追捧它时的心态,焦虑大于需求。而这种焦虑则来源于“害怕被落下”。

大模型、多模态、OpenAI的新应用等等新技术、新应用的出现,正在迅速刷新着人们对AGI时代的期待,仿佛它下一刻就会到来。

而向量数据库的热潮,在一定程度上“外化”了人们的焦虑。但这并不能否定向量数据库的实际价值,甚至更长远的价值。

虽然,目前向量数据库仍处于发展初期,但可以确定的是,向量数据库与大模型一定是捆绑关系。因此,未来其演进方向也一定随着大模型能力的演进而发生变化。

在罗云看来,“未来,向量数据库解决的是整个智能世界的智能存储和管理问题。”

而在具体的演进方向上,向量数据库一定会考虑多模态数据的表达以及数据的智能化管理。

首先,在大模型应用百花齐放的背景下,向量数据库对于多模态数据的处理意义,变得十分重要。

一个生活化的例子是,吃饭、看电影、听音乐等等娱乐事项,这些记录了你的一天。接下来,你想通过自然语言将其全部调取出来。

那么如果没有一个单独的向量数据库参与,以及没有合理的多模态数据处理方式,这种情况下是无法查询出这些数据的。而所谓的多模态也正是除了文字以外的照片、视频、音频等数据。

但随着多模态数据规模上的提升,另一个问题也随之出现。不同数据库中数据如何将其统一管理并让数据流通起来,这其中涉及到的智能化管理也是向量数据库未来的发力点。

因此,未来的向量数据库需要承载的是智能化数据平台。

另外,在星环科技向量数据库产品Hippo过去的研发过程中,刘熙对于扩展性、成本、易用性和路径优化方面都提出了挑战。

首先,在扩展性和成本方面,大模型的普及让向量数据的规模不断增大。对于向量数据的存储和索引,也提高了对硬件资源的要求,成本也自然随之提升。

而在易用性方面则涉及到了多种参数的挑战。与传统的关系型数据库不同,向量搜索涉及到更多维度的考量,包括性能和召回率等。而为了平衡性能和召回率,需要调整各种参数,但这对用户来说并不友好。因此,简化参数选择,提高用户体验是更加重要的挑战。

最后则是混合搜索中的路径优化问题。与传统的优化器相比,向量搜索的优化器更加复杂,因为它需要考虑多维度的因素。如何设计一个能够描述向量搜索代价的模型,以实现性能和召回率的平衡,是一个需要解决的难题。

不可否认的是,向量数据库的未来有星辰大海,也有曲折的前路。

背靠大模型,向量数据库在2023年成为了资本的“宠儿”。然而,在未来的AGI时代,向量数据库还有更多实事要干。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/160483.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

RedisTemplate使用详解

RedisTemplate介绍StringRedisTemplate介绍RedisConnectionFactory介绍RedisConnectionFactory源码解析 RedisOperations介绍RedisOperations源码解析 RedisTemplate使用连接池配置RedisTemplate连接池连接池配置 RedisTemplate应用场景RedisTemplate主要特点RedisTemplate使用…

redis运维(十六) 有序集合

一 有序集合 把握一点: 各种redis 命令都提供各种语言对应的API 接口,后续API是关键 ① 概念 1、sorted set --> 有序集合2、redis有序集合也是集合类型的一部分,所以它保留了集合中元素不能重复的特性3、但是不同的是,有序集合给每个元素多设置…

转型做视频了,博客就是稿子,继续坚持写博客,同时发布视频,能写博客说明思路清晰了,能再讲明白,理解就更透彻了,紧跟上时代发展。

1,今天特别记录下,B站给开通了《合集》功能 最近使用视频制作了几个视频。播放量还不错,最好的已经到了 2.6K了。 然后粉丝也涨到了 200个。 添加链接描述 紧跟时代:从写博客到录视频,粉丝大涨,突破200个&…

接口自动化测试 —— 工具、请求与响应

一、工具: 1.工具介绍 postman :很主流的API测试工具,也是工作里面使用最广泛的研发工具。 JMeter: ApiPost: 2.安装postman: 安装好直接打开,不用注册。 二、通信模式: 1、…

【Java 进阶篇】从Java对象到JSON:Jackson的魔法之旅

在现代的软件开发中,处理数据的能力是至关重要的。而当我们谈及数据格式时,JSON(JavaScript Object Notation)通常是首选。为了在Java中轻松地将对象转换为JSON,我们需要一种强大而灵活的工具。这时,Jackso…

【Java 进阶篇】Redis:打开缓存之门

介绍 Redis(Remote Dictionary Server)是一个高性能的键值对存储系统,被广泛用作缓存、消息中间件和数据库。它以其快速的读写能力、支持多种数据结构和丰富的功能而闻名。在这篇博客中,我们将深入了解Redis的概念、安装以及基本…

MQTT协议消息代理服务远程连接

目录 1. Linux 搭建 Mosquitto 2. Linux 安装Cpolar 3. 创建MQTT服务公网连接地址 4. 客户端远程连接MQTT服务 5. 代码调用MQTT服务 6. 固定连接TCP公网地址 7. 固定地址连接测试 Mosquitto是一个开源的消息代理,它实现了MQTT协议版本3.1和3.1.1。它可以在不…

第二十章:多线程

进程 线程的特点 1.进程是资源分配的最小单位&#xff0c;线程是最小的执行单位 2.一个进程可以有多个线程 3.线程共享进程资源 package twentyth; public class ThreadTest extends Thread { public void run() { for (int i 1; i < 10; i) {//继承重…

Unity开发之C#基础-File文件读取

前言 今天我们将要讲解到c#中 对于文件的读写是怎样的 那么没接触过特别系统编程小伙伴们应该会有一个疑问 这跟文件有什么关系呢&#xff1f; 我们这样来理解 首先 大家对电脑或多或少都应该有不少的了解吧 那么我们这些软件 都是通过变成一个一个文件保存在电脑中 我们才可以…

Spring Boot创建和使用(重要)

Spring的诞生是为了简化Java程序开发的&#xff01; Spring Boot的诞生是为了简化Spring程序开发的&#xff01; Spring Boot就是Spring框架的脚手架&#xff0c;为了快速开发Spring框架而诞生的&#xff01;&#xff01; Spring Boot的优点&#xff1a; 快速集成框架&#x…

2023年G2电站锅炉司炉证考试题库及G2电站锅炉司炉试题解析

题库来源&#xff1a;安全生产模拟考试一点通公众号小程序 2023年G2电站锅炉司炉证考试题库及G2电站锅炉司炉试题解析是安全生产模拟考试一点通结合&#xff08;安监局&#xff09;特种作业人员操作证考试大纲和&#xff08;质检局&#xff09;特种设备作业人员上岗证考试大纲…

MySQL 事务的底层原理和 MVCC(一)

在事务的实现机制上&#xff0c;MySQL 采用的是 WAL&#xff08;Write-ahead logging&#xff0c;预写式日志&#xff09;机制来实现的。 在使用 WAL 的系统中&#xff0c;所有的修改都先被写入到日志中&#xff0c;然后再被应用到系统中。通常包含 redo 和 undo 两部分信息。 …

【Java开发】 Springboot集成Mybatis-Flex

1 Mybatis-Flex 介绍 1.1简介 Mybatis-Flex 是一个优雅的 Mybatis 增强框架&#xff0c;它非常轻量、同时拥有极高的性能与灵活性。我们可以轻松的使用 Mybaits-Flex 链接任何数据库&#xff0c;其内置的 QueryWrapper 亮点帮助我们极大的减少了 SQL 编写的工作的同时&#xff…

cocos2dx ​​Animate3D(二)

Twirl 扭曲旋转特效 // 持续时间(时间过后不会回到原来的样子) // 整个屏幕被分成几行几列 // 扭曲中心位置 // 扭曲的数量 // 振幅 static Twirl* create(float duration, const Size& gridSize, const Vec2& position, unsigned int twirls, float amplitude)…

基于springboot实现摄影跟拍预定管理系统【项目源码+论文说明】计算机毕业设计

基于springboot实现摄影跟拍预定管理系统演示 摘要 首先,论文一开始便是清楚的论述了系统的研究内容。其次,剖析系统需求分析,弄明白“做什么”,分析包括业务分析和业务流程的分析以及用例分析,更进一步明确系统的需求。然后在明白了系统的需求基础上需要进一步地设计系统,主要…

【2018年数据结构真题】

方法一 给定一个含n(n>1)个整数的数组&#xff0c;请设计一个在时间上尽可能高效的算法&#xff0c;找出数组中未出现的最小正整数。例如&#xff0c;数组{-5&#xff0c;3&#xff0c;2&#xff0c;3}中未出现的最小正整数是1&#xff1b;数组{1&#xff0c;2&#xff0c;…

AIGC变革BI行业,永洪发布vividime全球化品牌

大数据产业创新服务媒体 ——聚焦数据 改变商业 国内BI商业智能市场&#xff0c;一直有着“内永洪&#xff0c;外Tableau”的说法。成立于2012年的永洪科技经过十多年的发展&#xff0c;早已崛起为国内大数据行业的一支劲旅。 ChatGPT火爆出圈之后&#xff0c;AIGC快速渗透&am…

【C++】vector的介绍与使用

&#x1f9d1;‍&#x1f393;个人主页&#xff1a;简 料 &#x1f3c6;所属专栏&#xff1a;C &#x1f3c6;个人社区&#xff1a;越努力越幸运社区 &#x1f3c6;简 介&#xff1a;简料简料&#xff0c;简单有料~在校大学生一枚&#xff0c;专注C/C/GO的干货分…

【Java 进阶篇】Redis 数据结构:轻松驾驭多样性

引言 Redis是一款强大的键值对存储系统&#xff0c;其数据结构的多样性是其引以为傲的特点之一。在这篇博客中&#xff0c;我们将深入探讨Redis的主要数据结构&#xff0c;包括字符串、哈希表、列表、集合和有序集合&#xff0c;并通过实例代码演示它们的用法。 1. 字符串&am…

在中国企业出海的大浪潮下,亚马逊云科技提供遍及全球的基础设施和技术支持

中国技术出海是中国企业更高层次更高质量的全球化。在人类文明发展史上&#xff0c;凝聚中国古人智慧结晶的造纸术、印刷术、火药、指南针等&#xff0c;曾为中国技术出海写下过浓墨重彩的一笔。在今天&#xff0c;如金山办公、店匠科技、ADVANCE.AI等公司又以技术立业&#xf…