腾讯云把向量数据库“卷”到哪一步了?

c0d91419ec1e54723a920dc22a34c6fa.jpeg

“不是我不明白,这世界变化快”,崔健在20世纪写下的这句歌词,放在刚刚过去的2023年,也同样适用。技术风向的变化之快,让不少人感到惊讶,向量数据库这一年的潮起潮落,就是一个典型的例子。

2023年初大模型、生成式 AI的起飞,也带来了向量数据库的火爆,投融资项目爆发式增长,传统数据库厂商和公有云厂商都推出了相关产品。然而一年狂飙之后,市场又开始退潮,前不久全球最著名的 AI 项目之一AutoGPT 宣布,不再使用向量数据库。

6b80c66875ab34fd7393d1125f87be90.png

向量数据库真的是AI革命中的组成部分吗?这一市场有哪些参与者?腾讯云为代表的公有云厂商,又在这场技术创新中发挥了什么作用?

向量数据库

刚刚开始

86203b9f1c3a8cc5706e40ff312dbc59.png

新技术的火爆,必然会伴随炒作和泡沫,但向量作为大模型理解世界的数据形式,向量数据库作为AI革命重要基建的位置,长期来看,是不会动摇的。

为什么这么说?

向量数据库并不是一种特别新的数据库技术,在AI领域已经应用了七八年,谷歌在2015年就宣布使用RankBrain语义检索来处理搜索任务。如果说数据库是数据的“硬盘”,那么,向量数据库就是更适合AI体质的“硬盘”。

其“AI原生”的体质,具体表现在几个方面:

1.更高的效率。AI算法,要从图像、音频和文本等海量的非结构化数据中学习,提取出以向量为表示形式的“特征”,以便模型能够理解和处理。因此,向量数据库比传统基于索引的数据库有明显优势。

2.更低的成本。大模型要从一种新技术转化为产业价值,必须达到合理的投入产出比,而向量数据库可以有效减少存储和计算成本。一个公开数据是,通过腾讯云向量数据库,QQ音乐人均听歌时长提升3.2%、腾讯视频有效曝光人均时长提升1.74%、QQ浏览器成本降低37.9%,就在于检索效率、运行稳定性、运营效率、推荐算法等,有了较大的提升。

f346f0d4cc964720f08d71fadcd54c14.png

(腾讯云数据库产品架构)

3.更强的数据安全。有个企业直言:我沉淀了几十年的内部数据,是我的的核心竞争力,让我无偿去公开给大模型做训练,我肯定不愿意。想做大模型,还要确保数据的隐私安全,就必须与数据库产品做好配合,这给向量数据库的本地部署带来了广阔的需求。

4.更大的扩展性。随着大模型走向行业应用,垂直领域的AI用例不断增多,汹涌的数据洪潮和存算任务,会带来大量向量搜索的需求。而向量数据库嵌入向量的长度不受限制,具有良好的扩展性,可以根据AI用例和模型而变化,更好地处理大规模数据集。

所以说,除非大模型技术,在短期内发生颠覆性改变,否则落地应用还是需要向量检索和向量数据库。而作为大模型技术标杆的OpenAI最近也透露:我们可能已经非常接近实现通用人工智能(AGI),应该以通用人工智能的实现为前提进行创业和技术开发。

由此可以肯定,向量数据库市场必然还会迎来一轮增长。年底趋于冷静,只是2023年热情过度高涨的适当回调。

19a8d390f049239eec82fe5af0382d11.png

两股新势力

云是方向

从引爆到饱和,向量数据库市场的发展速度迅猛,也吸引了“群雄逐鹿”。

传统数据库厂商不必多说,既有相应的能力建设,也有一定的客户基础,推出相关产品是必然。一些在AI领域积淀已久的科技大厂,如谷歌、微软、Meta、百度等大厂,都有向量数据库的技术积累,也都可以向外输出相关能力和产品。这些我们都比较熟悉了。

而上一年狂飙突进的两股新势力,成为市场上的黑马,分别是创业公司和公有云。

以上半年爆火的AI创业新秀Pinecone为代表。Pinecone是闭源的领跑者,凭借良好的开箱即用的产品体验,获得了非常大的增长,B轮估值达到7.5亿美元。其他竞争者大多建立在开源项目的基础上。

总体来说,这些创业“独角兽”的向量数据库公司,固然新锐,但长期盈利能力还有待验证。原因是,其客户大多是尝鲜、实验性质。

一般来说,企业需要先将非结构化的私密数据,进行一个小的模型,进行向量化,产生一个向量的矩阵,再存储到向量数据库里,来供大模型学习和检索。这个过程涉及大量的工程化,会耗费企业许多开发人员、时间成本,一开始可能会因为AI大模型很火而对向量数据库产生兴趣,但能否真正在业务中落地还是个未知数,因此,长期付费意愿还有较大的不确定性。

另一股“新势力”:公有云厂商,也是向量数据库的积极参与者。

不是所有企业都有能力自建大模型所需要的基础设施,通过MaaS(模型即服务)业务来训练应用大模型,是更灵活的选择。

ffa8d37df302764b862af3135063c3d7.png

此外,上云用数赋智是大势所趋,很多政企客户往往会选择公有云或行业云来满足其业务需求,将数据迁移到云上,对云数据库的关注度和接受度上升,而这些用户在探索大模型时,会倾向于以整体解决方案的形式来交付,这就给了云厂商参与游戏的机会,同时也要求云厂商提供向量数据库的全栈支持。

以腾讯云为代表,腾讯云的AI 原生(AI Native)向量数据库Tencent Cloud VectorDB是国内首个从接入层、计算层、到存储层提供全生命周期AI化的向量数据库。

f6d9bc378765a59d9ea3300525066d9b.png

除了产品之外,腾讯云提供了全面AI化解决方案,覆盖接入层、计算层、存储层,使用户在使用向量数据库的全生命周期,都能应用到AI能力。有数据显示,企业原先接入一个大模型需要花1个月左右时间,使用腾讯云向量数据库后,3天时间即可完成,极大降低了企业的接入成本。

此外,腾讯庞大的业务集群及智能化应用,为腾讯云向量数据库提供了绝佳的练兵场。腾讯集团每日处理千亿次检索的向量引擎(OLAMA),让腾讯云向量数据库的基本功能和性能得到了更加充分地检验与优化,从而淬炼出了很多让人眼前一亮的新能力。

以腾讯视频的应用为例,视频库中的图片、音频、标题文本等内容使用腾讯云向量数据库,月均完成的检索和计算量高达200亿次,有效满足了版权保护、原创识别、相似性检索等场景需求。

风物长宜放眼量,AI技术还在快速变化之中,AI Native的腾讯云在这一市场领域的竞争力还会进一步扩大。

接下来

向量数据库卷什么?

542eb6113defbbcb37877cb0a707046b.png

不难看到,市面上并不缺少向量数据库产品,缺少的是商业模式。

据东北证券预测,到 2030 年,全球向量数据库市场规模有望达到 500 亿美元,国内向量数据库市场规模有望超过600亿人民币。想要吃到这块巨大的蛋糕,仅仅形成技术趋势是远远不够的,成熟的产品化才能说服用户、兑现商业价值。

8394b4971011dc6b9838966e3a03c13c.png

目前来看,以腾讯云为代表的云厂商有几重特殊优势,或许会让向量数据库加速走向商业成功:

1.多元化部署。垂直行业大模型,数据都是私有机密的,客户一般不愿意放到公有云上,腾讯云提供私有部署、分布式、混合云等多种方案,打消疑虑。背后需要混合多云的云基础设施。

2.一体化AI方案。向量数据库的火爆,本质是AI需求,而AI Native时代的数据工程,还有许多复杂问题尚待解决,腾讯云提供一体化的AI解决方案,从底层算力集群、Maas模型平台到全栈工具链,通过软硬件协同优化AI开发成本,是企业和开发者所期待的。

3.产业服务能力。AI技术革命方兴未艾,行业热情高涨,但大多处于尝试探索期,需要结合自身业务、AI应用、IT设施等多种因素试错并迭代,这个过程中,随叫随到、帮助客户及时解决问题的ToB服务能力,也是非常看重的。深耕产业互联网的腾讯云,确实是企业在这场AI技术革命中可靠的伙伴。

开放、全面、贴心,才能支持企业用好向量数据库、大模型等基础设施,弄潮AI。

被大模型“带飞”的向量数据库,才刚刚开始,将在腾讯云上长出商业成功的羽翼,飞向更广阔的天地。

edc72a2da7dcd12b01b52c1c9452fde8.gif

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/624247.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

OpenGL ES之深入解析如何实现图像锐化

一、什么是图像锐化? 图像锐化是一种图像处理技术,其目的是增强图像中的细节和边缘,使图像看起来更加清晰。这一过程通常涉及到突出图像中的高频信息,特别是强调像素之间的灰度变化。通过增强图像的高频细节,图像锐化可以改善图像在人类视觉系统和计算机视觉系统中的感知效…

电商API接口主要应用场景有哪些?

随着互联网技术的不断进步和电商行业的迅猛发展,电商API接口在商品交易、物流配送、客户服务等方面发挥着越来越重要的作用。本文将深入探讨电商API接口的技术原理、应用场景、开发方法以及优缺点。 一、技术原理 电商API接口是基于HTTP、TCP、IP等网络协议实现的…

[Kubernetes]10. k8s部署Goweb+mysql项目实战演练

一.安装docker构建镜像 如果要本地构建镜像的话,对应节点还需要安装docker,安装教程见:[Docker]一.Docker 简介与安装 linux环境,centos8下 docker及docker compose安装教程 k8s部署Goweb+mysql项目有两种方法:第一种是传统部署方法,第二种是通过ConfigMap实现应用配置分离部署…

Soul App:来一场始于“兴趣”,轻松自在的“零糖”社交吧

岁末年终,回顾2023年,这一年你都做了什么呢? 记不清楚没关系,互联网都帮你记录好了。2023年,B站的年轻人当“所见所闻”刷新自身认知时,往往会发送弹幕“啊?”来抒发惊叹。这一年,支付宝“小荷包”的用户中00后占了4成,近一半更开启了“自动攒”计划“无痛攒钱”!携程上,每7…

Bubble – 非实时协作软件如何促成好点子诞生

作为一名用户体验设计师,参加各种各样的会议构成一周工作大部分时间,一个项目的推进离不开大家的共同协作。 身在外企,我们要与不同国家(时区)不同部门的同事协作,Teams是每天必使用的软件,但是…

【JAVA基础--计算机网络】--TCP三次握手+四次挥手

三次握手四次挥手 写在前面1. 三次握手1.1 作用: 为了在不可靠的信道上建立起可靠的连接;1.2 建立过程1.3 面试提问 2. 四次挥手2.1 作用:为了在不可靠的网络信道中进行可靠的连接断开确认2.2 断开过程2.3 面试提问 写在前面 三次握手建立连…

【MATLAB】tvf_emd_LSTM神经网络时序预测算法

有意向获取代码,请转文末观看代码获取方式~也可转原文链接获取~ 1 基本定义 TVF-EMD-LSTM神经网络时序预测算法是一种结合了变分模态分解(Variational Mode Decomposition,VMD)、经验模态分解(Empirical Mode Decompo…

【Python】Pyside2 可视化实现:每秒复制源文件一行到目标文件并打印日志

背景: 博主在某个项目中,需要模拟每秒钟生成一行数据,所以有了该博客的想法,其中有线程的内容,为了防止主界面卡住 效果: 代码: import sys import threading import timeimport openpyxl im…

安泰高压功率放大器在半导体测试中的应用

高压功率放大器在半导体测试中扮演着重要的角色。半导体测试是指对半导体器件进行各种电性能参数测试和质量检测的过程。以下是关于高压功率放大器在半导体测试中的应用的详细介绍。 一、高压信号发生器: 在半导体测试中,需要模拟高压环境下的工作条件以…

如何统一给文件夹名加后缀?这个方法教你一键搞定

随着计算机的普及,我们每天都会处理大量的文件和文件夹。有时候,为了更好地管理和分类文件,我们会给文件夹统一加上后缀。给文件加上后缀后最直接的好处就是方便文件管理。当我们给文件夹加上后缀时,我们可以很容易地根据后缀来判…

new mars3d.graphic.PolygonEntity({计算平面几何中心点及贴地效果展示

1.Mars3d提供了几何图形相关点位的计算方法polyutil: PolyUtil - V3.7.0 - Mars3D API文档 2.通过api可以算出相关经纬度坐标,实现相关中心点的展示 : 功能示例(Vue版) | Mars3D三维可视化平台 | 火星科技 3.相关实现代码: fu…

AI Agent:大模型的下一个高地

科技云报道原创。 当所有人都沉浸在与ChatGPT对话的乐趣中,一场静水流深的变革已然启动。 2023年11月,比尔盖茨发表了一篇文章,他表示,AI Agent将是大模型之后的下一个平台,不仅改变每个人与计算机互动的方式&#x…

九、Qt C++ 毕业设计 数据库相关

《一、QT的前世今生》 《二、QT下载、安装及问题解决(windows系统)》《三、Qt Creator使用》 ​​​ 《四、Qt 的第一个demo-CSDN博客》 《五、带登录窗体的demo》 《六、新建窗体时,几种窗体的区别》 《七、Qt 信号和槽》 《八、Qt C 毕业设计-CSDN博客》 …

如何使用Lychee结合内网穿透搭建私人图床网站并发布至公网远程访问

文章目录 1.前言2. Lychee网站搭建2.1. Lychee下载和安装2.2 Lychee网页测试2.3 cpolar的安装和注册 3.本地网页发布3.1 Cpolar云端设置3.2 Cpolar本地设置 4.公网访问测试5.结语 1.前言 图床作为图片集中存放的服务网站,可以看做是云存储的一部分,既可…

一键批量翻译日语文件名至中文,轻松管理你的文件库!

你是否曾经因为日语文件名的困扰而感到头疼?随着中日交流的日益频繁,我们经常需要在中文环境下处理日语文件。为了更好地管理和使用这些文件,将日语文件名翻译成中文变得尤为重要。现在,有了我们的批量文件名翻译工具,…

PLM项目管理系统是什么? PLM项目管理系统的优势

PLM项目管理系统是什么 PLM,全称Product Lifecycle Management,即产品生命周期管理。它就像一个大管家,帮助企业打理产品研发的各种数据和流程,它是一个工具,一个强大的工具,让企业可以统一管理产品研发数…

Transformer原理与代码实现

Transformer原理与代码实现 概览 一、嵌入层 Embedding 二、位置编码 Positional Encoding 三、(整合)Transformer嵌入层 Transformer Embedding 四、带缩放的点积注意力机制 Scaled Dot-Product Attention 五、多头注意力 Multi-Head Attention 六…

ThingsPanel部署和使用

前置条件: 首先默认大家有一台服务器或者云服务器并且已经搭建好环境。小编是基于Linux宝塔环境以Docker安装ThingsPanel平台。 一.Docker和Docker-compose 1.概述 Docker是一个开源的容器化平台,它可以帮助开发者将应用程序与其依赖项打包到一个轻量…

keycloak部署

https://downloads.jboss.org/keycloak/11.0.2/keycloak-11.0.2.zip 1.上传zip 并解压 uzip keycloak-11.0.2.zip 2.创建mysql数据库 CREATE SCHEMA keycloak DEFAULT CHARACTER SET utf8 ; 3.安装mysql的jdbc驱动 下载mysql的JDBC驱动(mysql-connector-java-8…

springboot设置统一响应头——无效?接口无响应?

背景 对接一个关联方系统,我这边需要提供几个接口。对方要求,这些接口有统一的响应格式,并且有统一的响应头。统一的响应头包含如下: {"TT-Encrypt":"noaction","Content-Encoding":"gzip&q…