AI大模型 向量Embeddings+向量数据库实现文搜文、图搜图

文搜文、图搜图介绍:

 

文搜文 :即文本搜索文本,是指通过输入关键词或短语,在大量文本数据中检索出与之相关的内容 。 索引擎(百度、谷歌、 360 文档管理系统 电商搜索

 

图搜图 :即图像搜索图像,是一种基于图像内容的搜索技术 。 电商平台 版权保护 设计行业 慧医疗 ( 医生可以通过图搜图技术检索医学影像库中的相似病例,辅助病情诊断和治疗方案的制定 )、 旅游出行

 

传统的 Elasticsearch 全文搜索引擎可以通过分词实现搜索功能,但是要实现图搜图就无从下手了。

 

向量 Embeddings 结合向量数据库不仅可以实现文搜文,还实现图搜图。

 

向量 Embeddings 结合向量数据库在向量搜索领域相比 Elasticsearch 具有更高的性能(比如相似度)、更强的灵活性和可扩展性、更低的开发门槛和成本效益,以及更广泛的应用场景。

 

比如 Milvus 向量数据库,在 万亿条 向量数据中检索数据可以实现毫秒级别的速度。

 

 

向量 Embeddings 介绍:

 

向量 Embeddings 也叫向量嵌入( Vector Embeddings ),是自然语言处理( NLP )和机器学习领域中一个非常重要的概念,它是一种将高维数据(如文本、图像、音频或视频等)映射到低维空间(向量)的技术。这种转换使得这些数据(如文本、图像、音频或视频等)能够在数学上被处理,从而能够进行自然语言搜索、分类、计算等操作。

 

 

非结构化数据 ( WORD PDF TXT ) ,通过 深度学习模型 ( 神经网络 ) ,把 自然语言 转换成 向量 ,这样就可以实现自然语言搜索、分类、计算等操作。

 

深度学习向量模型 (神经网络)目前已经非常成熟,如何借助深度学习模型把 非结构化数据转换成向 并对向量进行处理 是目前开发 AI 大模型应用开发比较关注的问题。

 

向量 Embeddings 在多个领域都有广泛的应用,包括但不限于:

 

1、自然语言处理( NLP :在 NLP 中,单词 Embedding (词嵌入)是一种常见的技术,用于将单词转换为连续向量表示。这种表示方法有助于捕捉单词之间的语义关系,从而提高NLP 任务的性能, 如文本分类、情感分析、机器翻译等。

 

2、图像处理 :在图像处理领域,图像 Embedding 技术可以将图像转换为向量表示,从而便于进行图像分类、识别、检索等任务。

 

3、推荐系统 :推荐系统可以利用用户行为数据(如点击、购买、评分等)和物品属性数据(如标题、描述、图片等)生成向量表示,进而计算用户与物品之间的相似度,从而为用户推荐可能感兴趣的物品。

 

 

这张图片通过坐标系和向量化表示的方法,展示了四种动物(猫、狗、牛、羊)在某种 抽象空间 中的位置关系 。

 

通过把自燃语言向量转化为向量,可以让我们在向量空间中进行语义搜索、分类、计算等操作。

 

比如我们把 宠物 向量化,然后用对应的向量进行搜索,就可以获取猫和狗的向量数据。比如我们把 家畜“ 向量化,然后用应的向量进行搜索就可以搜索到牛和羊对应的向量,从而实现语言搜索。

 

Embeddings 大模型 : BERT ( Google 开发 ) GPT 系列 Word2Vec 百度文心大模型 bge-large- zh 智谱 讯飞新火 等。

 

AI大模型 向量Embeddings+向量数据库实现文搜文、图搜图学习:

AI教程

 

 

 

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/881641.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

从零开始搭建一个node.js后端服务项目

目录 一、下载node.js及配置环境 二、搭建node.js项目及安装express框架 三、集成nodemon,实现代码热部署 四、Express 应用程序生成器 一、下载node.js及配置环境 网上很多安装教程,此处就不再赘述了 版本信息 C:\Users\XXX>node -v v20.15.0…

IDEA Sping Boot 多配置文件application Maven动态切换

新建application-dev.yml与application-prod.yml pom.xml文件下添加profiles等 让idea识别出配置文件 <profiles><profile><id>dev</id><properties><!-- 环境标识&#xff0c;需要与配置文件的名称相对应 --><profiles.active>dev&…

欧科云链研究院深掘链上数据:洞察未来Web3的隐秘价值

目前链上数据正处于迈向下一个爆发的重要时刻。 随着Web3行业发展&#xff0c;公链数量呈现爆发式的增长&#xff0c;链上积聚的财富效应&#xff0c;特别是由行业热点话题引领的链上交互行为爆发式增长带来了巨量的链上数据&#xff0c;这些数据构筑了一个行为透明但与物理世…

(32)噪声信号的时域分析:均值、方差、与功率

文章目录 前言一、生成噪声信号并画图二、计算信号的均值、方差、与功率三、结果分析 前言 本文对叠加了高斯白噪声的一段整周期余弦信号进行时域分析&#xff0c;使用MATLAB进行信号生成&#xff0c;并计算其均值、方差、与功率。最后给出对计算结果的分析&#xff0c;阐明均…

开源新生活,社区齐乐活:COSCon'24 社区合作和开源集市招募中,诚邀广大社区参与!...

一年一度的开源盛会&#xff0c;COSCon24第九届中国开源年会暨开源社10周年嘉年华&#xff0c;将于11月2-3日&#xff0c;在北京•中关村国家自主创新示范区展示中心召开&#xff01;本次大会的主题是&#xff1a;「Open Source&#xff0c;Open Life | 开源新生活」&#xff0…

电脑无线网wifi和有线网同时使用(内网+外网同时使用)

一、要求 我这里以无线网wifi为外网&#xff0c;有线网卡为内网为例&#xff1a; 一、基本信息 无线wifi&#xff08;外网&#xff09;&#xff1a;ip是192.168.179.235&#xff0c;网关是192.168.179.95有线网&#xff08;内网&#xff09;&#xff1a;ip是192.168.10.25&…

C语言实现输出空心数字金字塔

如下图所示&#xff0c;那么&#xff0c;该怎么实现呢 #include <stdio.h>void hallow(int n);int main(void) {int n;printf("请输入一个数");scanf("%d",&n);hallow(n);return 0; }void hallow(int n) {int i,j,k1;for (i 1; i <n-1; i) {…

Java面向对象编程--高级

目录 一、static关键字 1.1 静态变量 1.2 静态内存解析 1.3 static的应用与练习 二、单例设计模式 2.1 单例模式 2.2 如何实现单例模式 三、代码块 3.1 详解 3.2 练习&#xff0c;测试 四、final关键字 五、抽象类与抽象方法 5.1 abstract 5.2 练习 六、接口 6.…

以JavaScript的学习角度看Axios,并以spring boot+vue3为例具体分析实现

什么是Axios Axios 是一个基于 Promise 的 HTTP 客户端&#xff0c;用于在浏览器和 后端 中发送异步的 HTTP 请求。它功能强大、易用&#xff0c;常用于与 API 交互&#xff0c;发送 GET、POST、PUT、DELETE 等请求。 Axios 的主要特点&#xff1a; 支持 Promise Axios 基于 …

【花卉识别系统】Python+卷积神经网络算法+人工智能+深度学习+图像识别+算法模型

一、介绍 花朵识别系统。本系统采用Python作为主要编程语言&#xff0c;基于TensorFlow搭建ResNet50卷积神经网络算法模型&#xff0c;并基于前期收集到的5种常见的花朵数据集&#xff08;向日葵、玫瑰、蒲公英、郁金香、菊花&#xff09;进行处理后进行模型训练&#xff0c;最…

GitHub简介与安装使用入门教程

1、Git与GitHub的简介 Git是目前世界上最先进的分布式控制系统&#xff0c;它允许开发者跟踪和管理源代码的改动历史记录等&#xff0c;可以将你的代码恢复到某一个版本&#xff0c;支持多人协作开发。它的核心功能包括版本控制、分支管理、合并和冲突解决等&#xff0c;其操作…

【原创】java+springboot+mysql疫苗追踪管理系统设计与实现

个人主页&#xff1a;程序猿小小杨 个人简介&#xff1a;从事开发多年&#xff0c;Java、Php、Python、前端开发均有涉猎 博客内容&#xff1a;Java项目实战、项目演示、技术分享 文末有作者名片&#xff0c;希望和大家一起共同进步&#xff0c;你只管努力&#xff0c;剩下的交…

2024最新版安装教程!Python安装+PyCharm安装使用教程!!(非常简单)

Python下载安装 一、进入Python官网首页&#xff0c;下载最新版的Python 官方网址&#xff1a;Download Python | Python.org 鼠标悬浮在Downloads&#xff0c;选择最新版本 注意&#xff1a;由于Python官网服务器设立在国外&#xff0c;所以下载速度非常慢&#xff0c;我这…

STM32 SPI串行总线

目录 STM32的SPI通信原理 SPI串行总线概述 SPI串行总线互连方式 STM32F1 SPI串行总线的工作原理 SPI串行总线的特征 SPI串行总线的内部结构 SPI串行总线时钟信号的相位和极性 STM32的SPI接口配置 STM32的SPI接口数据发送与接收过程 SPI的HAL 驱动函数 STM32的SPI通信…

Linux高级编程_32_磁盘映射

文章目录 磁盘映射相关函数mmap函数作用&#xff1a; munmap函数作用&#xff1a; truncate 函数作用&#xff1a; 语法&#xff1a;使用步骤&#xff1a; 磁盘映射 概述&#xff1a; > 存储映射 I/O (Memory-mapped I/O) 使一个磁盘文件与存储空间中的一个缓冲区相映射。…

H7-TOOL的LUA小程序教程第14期:任意波形信号发生器,0-20mA输出和微型数控电源(2024-10-11,已更新)

LUA脚本的好处是用户可以根据自己注册的一批API&#xff08;当前TOOL已经提供了几百个函数供大家使用&#xff09;&#xff0c;实现各种小程序&#xff0c;不再限制Flash里面已经下载的程序&#xff0c;就跟手机安装APP差不多&#xff0c;所以在H7-TOOL里面被广泛使用&#xff…

vue3学习:数字时钟遇到的两个问题

在前端开发学习中&#xff0c;用JavaScript脚本写个数字时钟是很常见的案例&#xff0c;也没什么难度。今天有时间&#xff0c;于是就用Vue的方式来实现这个功能。原本以为是件非常容易的事&#xff0c;没想到却卡在两个问题上&#xff0c;一个问题通过别人的博文已经找到答案&…

Java—继承性与多态性

目录 一、this关键字 1. 理解this 2. this练习 二、继承性 2.1 继承性的理解 2.1.1 多层继承 2.2 继承性的使用练习 2.2.1 练习1 2.2.2 练习2 2.3 方法的重写 2.4 super关键字 2.4.1 子类对象实例化 三、多态性 3.1 多态性的理解 3.2 向下转型与多态练习 四、Ob…

03 django管理系统 - 部门管理 - 部门列表

部门管理 首先我们需要在models里定义Dept类 # 创建部门表 class Dept(models.Model):name models.CharField(max_length100)head models.CharField(max_length100)phone models.CharField(max_length15)email models.EmailField()address models.CharField(max_length2…

k8s : 在master节点部署服务

部署多个work节点过于麻烦&#xff0c;于是打算直接在master节点部署服务测试 解决办法&#xff1a; k8s集群init后&#xff0c;你的master节点会被固定分配污点taint信息&#xff0c;这个污点的作用是让没有设置容忍的pod不会被调度到这个节点&#xff0c;因此我们的服务一般…