向量数据库的崛起:如何改变数据存储与机器学习的未来

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,随着大量语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起,向量数据库技术蓬勃发展,吸引了众多创业公司和投资者的关注。传统的关系数据库如Postgres或MySQL非常适合处理结构化数据——这些数据类型预定义明确,可以整齐地排列在行和列中。然而,对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,传统数据库的处理方式就显得力不从心。

与此相对,向量数据库通过向量嵌入的形式存储和处理数据,将文本、文件、图像等数据转换为数值表征,捕捉不同数据点之间的含义和关系。这种方法非常适合机器学习,因为数据库根据各项数据的相关性在空间上存储数据,这使得检索语义上相似的数据变得更加容易。

这对于OpenAI的GPT-4等大型语言模型尤其有用,因为它允许AI聊天机器人通过分析以前的类似对话来更好地理解对话上下文。向量搜索还可用于各种实时应用,如社交网络或电商应用中的内容推荐,因为它可以快速查看用户搜索过什么,并检索出类似的项目。

向量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。

向量搜索初创公司Qdrant的首席执行官兼联合创始人Andre Zayarni向TechCrunch解释说:“如果不使用向量相似度搜索,你仍然可以开发AI/ML应用,但你需要进行更多的重新训练和微调。当有大量数据集需要处理时,向量数据库就显得尤为重要,它是一个高效便捷处理向量嵌入的工具。”

今年1月,Qdrant获得了2800万美元的资金支持,凭借其快速增长成为去年增长最快的商业开源创业公司之一。并且,它远非唯一一个最近筹集资金的向量数据库初创公司——Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元用于各种向量产品。

自今年年初以来,我们还看到Index Ventures领投了Superlinked的950万美元种子轮融资,该平台将复杂数据转化为向量嵌入。几周前,Y Combinator(YC)公布了其2024年冬季群体,其中包括Lantern,这是一家为Postgres销售托管向量搜索引擎的初创公司。

此外,Marqo在去年年底获得了440万美元的种子轮融资,紧接着在2月份进行了1250万美元的A轮融资。Marqo平台提供全方位的向量工具,包括向量生成、存储和检索,使用户无需借助OpenAI或Hugging Face等第三方工具,通过单一API即可使用所有功能。

Marqo的联合创始人Tom Hamer和Jesse N. Clark曾在亚马逊担任工程师,他们意识到在不同模式如文本和图像上进行语义灵活搜索的巨大未满足需求。这促使他们在2021年离开亚马逊创立了Marqo。

Clark对TechCrunch表示:“在亚马逊从事视觉搜索和机器人技术工作时,我真正开始考虑向量搜索——我在思考新的产品发现方式,很快就聚焦于向量搜索。在机器人技术中,我利用多模态搜索来检索我们的图像,以识别可能存在的错误物体,比如软管和包裹,否则这些问题将非常难以解决。”

虽然向量数据库在ChatGPT和GenAI运动的喧嚣中正当其时,但它们并非适用于每一种企业搜索场景的灵丹妙药。

Percona的创始人Peter Zaitsev向TechCrunch解释说:“专用数据库往往专注于特定的用例,因此可以为所需任务的性能以及用户体验设计其架构,与需要适应当前设计的通用数据库相比。”

尽管专业数据库可能在某些方面表现出色但忽视了其他方面,我们开始看到数据库领域的老牌公司如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都在添加向量数据库搜索技术。

Zaitsev将这一最新趋势与十多年前JSON的情况进行比较,当时网络应用变得更加普遍,开发者需要一种对人类来说易于阅读和编写的语言独立数据格式。在那种情况下,像MongoDB这样的文档数据库作为新的数据库类别出现,而现有的关系数据库也引入了JSON支持。

Zaitsev对TechCrunch表示:“我认为向量数据库也可能出现类似的情况。那些正在构建非常复杂和大规模AI应用的用户将使用专用的向量搜索数据库,而那些需要为其现有应用构建一些AI功能的人更可能在他们已经使用的数据库中使用向量搜索功能。”

但Zayarni和他的Qdrant同事们正押注,完全围绕向量构建的原生解决方案将提供所需的“速度、内存安全和规模”,随着向量数据的爆炸性增长,与那些将向量搜索作为后期添加的公司相比,原生解决方案将表现更优。

Zayarni说:“他们的宣传是,‘如果需要,我们也可以进行向量搜索’。而我们的宣传是,‘我们以最佳方式进行高级向量搜索’。这完全是关于专业化。我们实际上建议从你技术栈中已有的数据库开始。如果向量搜索是你解决方案的关键组成部分,用户终将面临限制。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/1546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ExpertPrompting:指导大语言模型成为杰出专家

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 论文标题:ExpertPrompting: Instructing Large Language Models to be Distinguished Experts 论文地址:https://arxiv.org/abs/2305.14688 作者 & 机构:Benfen…

金融领域思考-前言

1背景介绍 不知不觉已经进入金融领域并且从事支付相关研发工作2年,2年了,应该是一个非常重要的分水岭。但越学习,越了解,越知道金融领域的复杂性。故希望借助写博客整理相关思绪,每有会意,便会记录&#x…

3.车载网络诊断测试用例标准与示例(车载网络诊断测试平台)

文章目录 1.概述2.测试用例2.1 用例名字2.2 用例ID2.3 测试需求来源2.4 测试环境2.5 测试目的2.6 前提条件2.7 手动/自动2.8 测试步骤2.9 评价标准2.10 备注2.11 测试结果2.12 测试数据3.测试用例示例4.其他1.概述

Linux嵌入式驱动开发-阻塞IO与非阻塞IO

文章目录 阻塞与非阻塞访问简介阻塞访问的实现等待队列等待队列头等待队列项从等待队列头添加/移除等待队列项等待唤醒等待事件API 非阻塞访问的实现轮询poll 函数原型可以返回的资源状态 阻塞与非阻塞访问简介 **IO:**Input/Output,也就是输入/输出&am…

环境感知——自动驾驶模型训练(菜鸟版本)

简述 本文用仿真工具录制下训练数据后,存到本地CSV文件中,本文仅用方向盘转角速度进行训练。 代码示例采用Jupyter编码,如在其他编辑器运行问题,请使用Jupyter. CSV文件中存储的数据如下: "center",&quo…

Mysql学习大纲

文章目录 整体大纲总结 整体大纲 大纲 MySQL在金融互联网行业的企业级安装部署mysql启动关闭原理和实战,及常见错误排查 花钱9.9 订阅了专栏MySQL字符集和校对规则史上最详细的Mysql用户权原理和实战,生产案例InnoDB引擎原理和实战,通俗易懂…

IoT、IIoT、AIoT的区别是什么?

一、IoT、IIoT、AIoT的区别是什么? IoT、IIoT和AIoT都是物联网(Internet of Things)的不同应用和发展方向,但它们之间存在一些区别。 IoT(物联网):物联网是指通过互联网连接各种物理设备&#x…

Arcgis 定义投影、投影变换、导出栅格为tif

目录 一、Arcgis 定义投影 1、定义投影 2、设置平移 二、投影变换 1、栅格数据的投影变换 2、矢量数据的投影变换

【Linux】小知识点温习---命令

许多常见命令会用,但是很少注意他们的区别;亦或在学习中使用较少,容易忘记,今天做一个回顾。 ls系列 -a:显示所有文件(包括隐藏文件) -l:将文件以竖列形式显示 -i:显示文件的inode编号 pwd 显…

MacOS 文件系统种类及介绍

MacOS 文件系统种类 详细介绍 详细介绍 从图片中我们可以看到一个文件系统选择器的界面,列出了多种不同的文件系统选项。这些文件系统各有其特点和用途,以下是它们之间的主要区别: APFS:Apple File System,是苹果公司为…

车载电子电器架构 —— 功能安全开发(首篇)

车载电子电器架构 —— 功能安全开发 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己…

2.2 海思SS928开发 - 编译测试 - kernel

2.2 编译测试 - kernel 创建仓库 在 gitlab 上创建 SS928 kernel 仓库,并命名为 SS928_KERNEL_V4.19。 进入开发虚拟机,克隆仓库: cd ~ mkdir -p hiss928/kernel && cd hiss928/kernel git clone http://gitlab.xxx.com/KERNEL/SS9…

acwing算法提高之图论--欧拉回路和欧拉路径

目录 1 介绍2 训练 1 介绍 本专题用来记录欧拉回路和欧拉路径相关的题目。 相关结论: (1)对于无向图,所有边都是连通的。 (1.1)存在欧拉路径的充要条件:度数为奇数的结点只能是0个或者2个。 &…

江西智博环境| 邀您参加2024全国水科技大会暨技术装备成果展览会

展位号:A28 企业介绍 江西智博环境技术有限公司始创于2008年初,总部位于江西省域副中心城市-赣州。公司主要从事一体化净水设备、单村供站、泵船、无负压供水设备自动化控制系统、低配电系统、工艺设备及智慧水务的设计研发、生产、销售、安装、调试等业…

kubeadm 升级 k8s集群 1.17到1.20

云原生学习路线导航页(持续更新中) 本文是 Kubernetes 基础学习 系列文章,主要讲解 使用kubeadm,将kubernetes集群从1.17升级到1.20 1.kubernetes一般不要跨大版本升级 一般来说,跨越多个主要版本的升级需要逐个升级每…

WordPress SQLite Docker 镜像封装细节

为了让大家用的放心,同时解答 GitHub 社区中的疑问。这篇文章聊聊上一篇文章的 Docker 容器封装细节。 写在前面 在前一篇文章《WordPress 告别 MySQL:Docker SQLite WordPress》中,如果你跟着文章实践,大概三分钟就能够启动一个…

PHP 脚本,其中包含一个函数,该函数会从给定的字符串列表中随机选择一个字符串并返回

PHP 脚本&#xff0c;其中包含一个函数&#xff0c;该函数会从给定的字符串列表中随机选择一个字符串并返回: <?php// 定义函数&#xff0c;随机选择一个字符串 function getRandomString() {// 声明字符串列表$strings array("apple", "banana", &q…

【批量区域识别内容重命名】批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域识别提取重命名

我们在工作和生活中经常遇到这样的需求&#xff1a;比如将以下的图片区域识别进行重命名&#xff0c;批量识别后改成以时间和工作内容重命名&#xff0c;便于日后检索&#xff0c;快速查询 首先我们拍摄照片用到的是水印相机&#xff0c;这里的文字呢我们需要加个背景&#xff…

华为机考入门python3--(16)牛客16-购物单最大满意度

分类&#xff1a;动态规划&#xff0c;组合&#xff0c;最大值&#xff0c;装箱问题 知识点&#xff1a; 生成递减数 100, 90, 80, ..., 0 range(100, -1, -10) 访问列表的下标key for key, value in enumerate(my_list): 动态规划-捆绑装箱问题 a. 把有捆绑约束的物…

AI大模型日报#0421:「个性化」图像Gen4Gen框架、吴恩达亲授智能体设计模式、国内14大LLM最新评测报告

导读&#xff1a; 欢迎阅读《AI大模型日报》&#xff0c;内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 小冰徐元春&#xff1a;AIGC已经让普通人开始赚钱 | 中国AIGC产业峰会 摘要: 要点提炼&#xff1a; 在中国AIGC产业峰会上&…