向量数据库的崛起:如何改变数据存储与机器学习的未来

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

近年来,随着大量语言模型(LLMs)和生成式人工智能(GenAI)运动的兴起,向量数据库技术蓬勃发展,吸引了众多创业公司和投资者的关注。传统的关系数据库如Postgres或MySQL非常适合处理结构化数据——这些数据类型预定义明确,可以整齐地排列在行和列中。然而,对于图像、视频、电子邮件、社交媒体帖子等非结构化数据,传统数据库的处理方式就显得力不从心。

与此相对,向量数据库通过向量嵌入的形式存储和处理数据,将文本、文件、图像等数据转换为数值表征,捕捉不同数据点之间的含义和关系。这种方法非常适合机器学习,因为数据库根据各项数据的相关性在空间上存储数据,这使得检索语义上相似的数据变得更加容易。

这对于OpenAI的GPT-4等大型语言模型尤其有用,因为它允许AI聊天机器人通过分析以前的类似对话来更好地理解对话上下文。向量搜索还可用于各种实时应用,如社交网络或电商应用中的内容推荐,因为它可以快速查看用户搜索过什么,并检索出类似的项目。

向量搜索还可以帮助减少LLM应用中的“幻觉”,通过提供可能在原始训练数据集中不可用的额外信息。

向量搜索初创公司Qdrant的首席执行官兼联合创始人Andre Zayarni向TechCrunch解释说:“如果不使用向量相似度搜索,你仍然可以开发AI/ML应用,但你需要进行更多的重新训练和微调。当有大量数据集需要处理时,向量数据库就显得尤为重要,它是一个高效便捷处理向量嵌入的工具。”

今年1月,Qdrant获得了2800万美元的资金支持,凭借其快速增长成为去年增长最快的商业开源创业公司之一。并且,它远非唯一一个最近筹集资金的向量数据库初创公司——Vespa、Weaviate、Pinecone和Chroma去年共筹集了2亿美元用于各种向量产品。

自今年年初以来,我们还看到Index Ventures领投了Superlinked的950万美元种子轮融资,该平台将复杂数据转化为向量嵌入。几周前,Y Combinator(YC)公布了其2024年冬季群体,其中包括Lantern,这是一家为Postgres销售托管向量搜索引擎的初创公司。

此外,Marqo在去年年底获得了440万美元的种子轮融资,紧接着在2月份进行了1250万美元的A轮融资。Marqo平台提供全方位的向量工具,包括向量生成、存储和检索,使用户无需借助OpenAI或Hugging Face等第三方工具,通过单一API即可使用所有功能。

Marqo的联合创始人Tom Hamer和Jesse N. Clark曾在亚马逊担任工程师,他们意识到在不同模式如文本和图像上进行语义灵活搜索的巨大未满足需求。这促使他们在2021年离开亚马逊创立了Marqo。

Clark对TechCrunch表示:“在亚马逊从事视觉搜索和机器人技术工作时,我真正开始考虑向量搜索——我在思考新的产品发现方式,很快就聚焦于向量搜索。在机器人技术中,我利用多模态搜索来检索我们的图像,以识别可能存在的错误物体,比如软管和包裹,否则这些问题将非常难以解决。”

虽然向量数据库在ChatGPT和GenAI运动的喧嚣中正当其时,但它们并非适用于每一种企业搜索场景的灵丹妙药。

Percona的创始人Peter Zaitsev向TechCrunch解释说:“专用数据库往往专注于特定的用例,因此可以为所需任务的性能以及用户体验设计其架构,与需要适应当前设计的通用数据库相比。”

尽管专业数据库可能在某些方面表现出色但忽视了其他方面,我们开始看到数据库领域的老牌公司如Elastic、Redis、OpenSearch、Cassandra、Oracle和MongoDB,以及像Microsoft的Azure、Amazon的AWS和Cloudflare这样的云服务提供商,都在添加向量数据库搜索技术。

Zaitsev将这一最新趋势与十多年前JSON的情况进行比较,当时网络应用变得更加普遍,开发者需要一种对人类来说易于阅读和编写的语言独立数据格式。在那种情况下,像MongoDB这样的文档数据库作为新的数据库类别出现,而现有的关系数据库也引入了JSON支持。

Zaitsev对TechCrunch表示:“我认为向量数据库也可能出现类似的情况。那些正在构建非常复杂和大规模AI应用的用户将使用专用的向量搜索数据库,而那些需要为其现有应用构建一些AI功能的人更可能在他们已经使用的数据库中使用向量搜索功能。”

但Zayarni和他的Qdrant同事们正押注,完全围绕向量构建的原生解决方案将提供所需的“速度、内存安全和规模”,随着向量数据的爆炸性增长,与那些将向量搜索作为后期添加的公司相比,原生解决方案将表现更优。

Zayarni说:“他们的宣传是,‘如果需要,我们也可以进行向量搜索’。而我们的宣传是,‘我们以最佳方式进行高级向量搜索’。这完全是关于专业化。我们实际上建议从你技术栈中已有的数据库开始。如果向量搜索是你解决方案的关键组成部分,用户终将面临限制。”

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/diannao/1546.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

ExpertPrompting:指导大语言模型成为杰出专家

🍉 CSDN 叶庭云:https://yetingyun.blog.csdn.net/ 论文标题:ExpertPrompting: Instructing Large Language Models to be Distinguished Experts 论文地址:https://arxiv.org/abs/2305.14688 作者 & 机构:Benfen…

Linux嵌入式驱动开发-阻塞IO与非阻塞IO

文章目录 阻塞与非阻塞访问简介阻塞访问的实现等待队列等待队列头等待队列项从等待队列头添加/移除等待队列项等待唤醒等待事件API 非阻塞访问的实现轮询poll 函数原型可以返回的资源状态 阻塞与非阻塞访问简介 **IO:**Input/Output,也就是输入/输出&am…

Mysql学习大纲

文章目录 整体大纲总结 整体大纲 大纲 MySQL在金融互联网行业的企业级安装部署mysql启动关闭原理和实战,及常见错误排查 花钱9.9 订阅了专栏MySQL字符集和校对规则史上最详细的Mysql用户权原理和实战,生产案例InnoDB引擎原理和实战,通俗易懂…

IoT、IIoT、AIoT的区别是什么?

一、IoT、IIoT、AIoT的区别是什么? IoT、IIoT和AIoT都是物联网(Internet of Things)的不同应用和发展方向,但它们之间存在一些区别。 IoT(物联网):物联网是指通过互联网连接各种物理设备&#x…

【Linux】小知识点温习---命令

许多常见命令会用,但是很少注意他们的区别;亦或在学习中使用较少,容易忘记,今天做一个回顾。 ls系列 -a:显示所有文件(包括隐藏文件) -l:将文件以竖列形式显示 -i:显示文件的inode编号 pwd 显…

MacOS 文件系统种类及介绍

MacOS 文件系统种类 详细介绍 详细介绍 从图片中我们可以看到一个文件系统选择器的界面,列出了多种不同的文件系统选项。这些文件系统各有其特点和用途,以下是它们之间的主要区别: APFS:Apple File System,是苹果公司为…

车载电子电器架构 —— 功能安全开发(首篇)

车载电子电器架构 —— 功能安全开发 我是穿拖鞋的汉子,魔都中坚持长期主义的汽车电子工程师。 老规矩,分享一段喜欢的文字,避免自己成为高知识低文化的工程师: 屏蔽力是信息过载时代一个人的特殊竞争力,任何消耗你的人和事,多看一眼都是你的不对。非必要不费力证明自己…

江西智博环境| 邀您参加2024全国水科技大会暨技术装备成果展览会

展位号:A28 企业介绍 江西智博环境技术有限公司始创于2008年初,总部位于江西省域副中心城市-赣州。公司主要从事一体化净水设备、单村供站、泵船、无负压供水设备自动化控制系统、低配电系统、工艺设备及智慧水务的设计研发、生产、销售、安装、调试等业…

WordPress SQLite Docker 镜像封装细节

为了让大家用的放心,同时解答 GitHub 社区中的疑问。这篇文章聊聊上一篇文章的 Docker 容器封装细节。 写在前面 在前一篇文章《WordPress 告别 MySQL:Docker SQLite WordPress》中,如果你跟着文章实践,大概三分钟就能够启动一个…

【批量区域识别内容重命名】批量识别图片区域文字并重命名,批量图片部分识别内容重命文件,PDF区域识别提取重命名

我们在工作和生活中经常遇到这样的需求:比如将以下的图片区域识别进行重命名,批量识别后改成以时间和工作内容重命名,便于日后检索,快速查询 首先我们拍摄照片用到的是水印相机,这里的文字呢我们需要加个背景&#xff…

华为机考入门python3--(16)牛客16-购物单最大满意度

分类:动态规划,组合,最大值,装箱问题 知识点: 生成递减数 100, 90, 80, ..., 0 range(100, -1, -10) 访问列表的下标key for key, value in enumerate(my_list): 动态规划-捆绑装箱问题 a. 把有捆绑约束的物…

AI大模型日报#0421:「个性化」图像Gen4Gen框架、吴恩达亲授智能体设计模式、国内14大LLM最新评测报告

导读: 欢迎阅读《AI大模型日报》,内容基于Python爬虫和LLM自动生成。目前采用“文心一言”生成了每条资讯的摘要。 标题: 小冰徐元春:AIGC已经让普通人开始赚钱 | 中国AIGC产业峰会 摘要: 要点提炼: 在中国AIGC产业峰会上&…

Llama 3大模型发布!快速体验推理及微调

Meta,一家全球知名的科技和社交媒体巨头,在其官方网站上正式宣布了一款开源的大型预训练语言模型——Llama-3。 据了解,Llama-3模型提供了两种不同参数规模的版本,分别是80亿参数和700亿参数。这两种版本分别针对基础的预训练任务…

2024mac苹果电脑如何清理磁盘空间?用什么软件最好

苹果电脑已成为我们日常生活和工作不可或缺的一部分。随着时间的推移,不论是办公文档、个人照片还是各式各样的应用程序,都会逐渐积累,导致电脑的磁盘空间日益紧张。对于用户来说,苹果电脑如何清理磁盘空间,以保持设备…

【2024年最新】NodeMCU-ESP8266刷AT固件教程——适用于esp-12E和esp-12F

硬件图片 原理图 0、工具打包下载 工具包 密码:keduo 1、工具及固件下载 固件下载地址: 欢迎 | 安信可科技 (ai-thinker.com) 下载以下固件: 直接下载地址:AT 固件(固件号:0781) 下载以下工具&#xf…

使用Nexus搭建npm私服库

优质博文:IT-BLOG-CN 【1】下载nexus http://www.sonatype.com/download-oss-sonatype解压到本地即可; 【2】打开nexus-3.2.0-01-win64\nexus-3.2.0-01\bin;打开cmd(必须使用cmd) 执行nexus.exe /run;需要使…

Tomcat弱口令及war包漏洞复现(保姆级教程)

1.环境搭建 靶机:Ubuntu 安装参考:安装Ubuntu详细教程_乌班图安装教程-CSDN博客 vulhub docker搭建tomcat漏洞环境 参考:vulhub docker靶场搭建-CSDN博客 工具:burpsuite 2.漏洞复现 2.1弱口令爆破 进入http://192.168.143…

分类神经网络2:ResNet模型复现

目录 ResNet网络架构 ResNet部分实现代码 ResNet网络架构 论文原址:https://arxiv.org/pdf/1512.03385.pdf 残差神经网络(ResNet)是由微软研究院的何恺明、张祥雨、任少卿、孙剑等人提出的,通过引入残差学习解决了深度网络训练中的退化问题&#xff…

IO实现方式(同步阻塞、同步非阻塞、IO多路复用)

1. 同步阻塞IO 同步阻塞io在数据在数据拷贝到两个阶段都是阻塞的,即把socket的数据拷贝到内核缓冲区和把内核缓冲区的数据拷贝到用户态到应用程序缓冲区都是阻塞的。用户线程在这个期间不能处理其他任务。 优点:简单易用 缺点:为每一次io请…

VScode远程连接虚拟机提示: 无法建立连接:XHR failed.问题解决方案

一问题描述 在vscode下载插件Remote-SSH远程连接虚拟机时提示无法建立连接 二.最大嫌疑原因: 我也是在网上找了许久,发现就是网络原因,具体不知,明明访问别的网页没问题,就是连不上,然后发现下载vscode的…