腾讯云把向量数据库“卷”到哪一步了？

“不是我不明白，这世界变化快”，崔健在20世纪写下的这句歌词，放在刚刚过去的2023年，也同样适用。技术风向的变化之快，让不少人感到惊讶，向量数据库这一年的潮起潮落，就是一个典型的例子。

2023年初大模型、生成式 AI的起飞，也带来了向量数据库的火爆，投融资项目爆发式增长，传统数据库厂商和公有云厂商都推出了相关产品。然而一年狂飙之后，市场又开始退潮，前不久全球最著名的 AI 项目之一AutoGPT 宣布，不再使用向量数据库。

向量数据库真的是AI革命中的组成部分吗？这一市场有哪些参与者？腾讯云为代表的公有云厂商，又在这场技术创新中发挥了什么作用？

向量数据库

刚刚开始

新技术的火爆，必然会伴随炒作和泡沫，但向量作为大模型理解世界的数据形式，向量数据库作为AI革命重要基建的位置，长期来看，是不会动摇的。

为什么这么说？

向量数据库并不是一种特别新的数据库技术，在AI领域已经应用了七八年，谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”，那么，向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质，具体表现在几个方面：

1.更高的效率。AI算法，要从图像、音频和文本等海量的非结构化数据中学习，提取出以向量为表示形式的“特征”，以便模型能够理解和处理。因此，向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值，必须达到合理的投入产出比，而向量数据库可以有效减少存储和计算成本。一个公开数据是，通过腾讯云向量数据库，QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%，就在于检索效率、运行稳定性、运营效率、推荐算法等，有了较大的提升。

（腾讯云数据库产品架构）

3.更强的数据安全。有个企业直言：我沉淀了几十年的内部数据，是我的的核心竞争力，让我无偿去公开给大模型做训练，我肯定不愿意。想做大模型，还要确保数据的隐私安全，就必须与数据库产品做好配合，这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用，垂直领域的AI用例不断增多，汹涌的数据洪潮和存算任务，会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制，具有良好的扩展性，可以根据AI用例和模型而变化，更好地处理大规模数据集。

所以说，除非大模型技术，在短期内发生颠覆性改变，否则落地应用还是需要向量检索和向量数据库。而作为大模型技术标杆的OpenAI最近也透露：我们可能已经非常接近实现通用人工智能（AGI)，应该以通用人工智能的实现为前提进行创业和技术开发。

由此可以肯定，向量数据库市场必然还会迎来一轮增长。年底趋于冷静，只是2023年热情过度高涨的适当回调。

两股新势力

云是方向

从引爆到饱和，向量数据库市场的发展速度迅猛，也吸引了“群雄逐鹿”。

传统数据库厂商不必多说，既有相应的能力建设，也有一定的客户基础，推出相关产品是必然。一些在AI领域积淀已久的科技大厂，如谷歌、微软、Meta、百度等大厂，都有向量数据库的技术积累，也都可以向外输出相关能力和产品。这些我们都比较熟悉了。

而上一年狂飙突进的两股新势力，成为市场上的黑马，分别是创业公司和公有云。

以上半年爆火的AI创业新秀Pinecone为代表。Pinecone是闭源的领跑者，凭借良好的开箱即用的产品体验，获得了非常大的增长，B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

总体来说，这些创业“独角兽”的向量数据库公司，固然新锐，但长期盈利能力还有待验证。原因是，其客户大多是尝鲜、实验性质。

一般来说，企业需要先将非结构化的私密数据，进行一个小的模型，进行向量化，产生一个向量的矩阵，再存储到向量数据库里，来供大模型学习和检索。这个过程涉及大量的工程化，会耗费企业许多开发人员、时间成本，一开始可能会因为AI大模型很火而对向量数据库产生兴趣，但能否真正在业务中落地还是个未知数，因此，长期付费意愿还有较大的不确定性。

另一股“新势力”：公有云厂商，也是向量数据库的积极参与者。

不是所有企业都有能力自建大模型所需要的基础设施，通过MaaS（模型即服务）业务来训练应用大模型，是更灵活的选择。