AI一点通:使用Pinecone、Langchain和OpenAI嵌入构建强大的文本搜索系统

在当今数据驱动的世界中,企业和开发人员经常需要实现强大的文本搜索功能。传统的搜索算法在处理大量非结构化文本数据时可能无法提供最优结果。这就是Pinecone、Langchain和OpenAI服务发挥作用的地方。在本博客文章中,我们将探讨设置和利用这些工具来构建高准确性和高效率的文本搜索系统所需的步骤。

步骤1:设置索引

首先,我们需要在Pinecone中设置一个索引。安装所需的Python包,包括pinecone-client、openai和tiktoken。然后继续执行以下代码片段:

import pineconepinecone.init(api_key="YOUR_API_KEY", environment="YOUR_ENVIRONMENT")pinecone.create_index("langchain-demo", dimension=1536, metric="cosine")

dimension参数设置为1536,因为我们将使用“text-embedding-ada-002”OpenAI模型,该模型的输出维度为1536。如果您需要删除索引,请使用pinecone.delete_index("langchain-demo")命令。

步骤2:导入库并设置密钥

接下来,我们需要导入所需的库并设置必要的密钥。导入以下库:

import os
from langchain.embeddings.openai import OpenAIEmbeddings
from langchain.text_splitter import CharacterTextSplitter
from langchain.vectorstores import Pinecone
from langchain.document_loaders import TextLoader

将PINECONE_API_KEY和PINECONE_ENV变量设置为您的Pinecone API密钥和环境。此外,将OPENAI_API_KEY环境变量设置为您的OpenAI API密钥。

os.environ["OPENAI_API_KEY"] = 'your openai api key'

步骤3:准备数据和嵌入层

现在,加载文本数据(这里我们使用一个示例)并使用OpenAI服务准备嵌入层。使用Langchain的TextLoader类加载文本数据:

loader = TextLoader("state_of_the_union.txt")
documents = loader.load()

然后,使用CharacterTextSplitter类将文档拆分为较小的块:

text_splitter = CharacterTextSplitter(chunk_size=1000, chunk_overlap=0)
docs = text_splitter.split_documents(documents)

最后,初始化OpenAI嵌入:

embeddings = OpenAIEmbeddings()

步骤4:切分文档并索引嵌入向量

在这一步中,我们将文档分割为较小的部分,并使用Pinecone索引OpenAI嵌入向量。使用以下代码片段:

import pineconepinecone.init(api_key=PINECONE_API_KEY,environment=PINECONE_ENV,
)index_name = "langchain-demo"docsearch = Pinecone.from_documents(docs, embeddings, index_name=index_name)query = "What did the president say about Ketanji Brown Jackson"
docs = docsearch.similarity_search(query)print(docs[0].page_content)

步骤5:向索引中添加更多文本

要将更多文本添加到现有索引或从空索引开始,使用以下代码片段:

index = pinecone.Index("langchain-demo")
vectorstore = Pinecone(index, embeddings.embed_query, "text")vectorstore.add_texts(["More text to add as an example!"])

如果您需要向索引添加元数据,可以使用包含文本的字典列表进行传递:

vectorstore.add_texts(["More text to add as an example!"], [{'name':'example'}])

结论:

通过按照这些步骤,您可以使用Pinecone、Langchain和OpenAI服务构建强大的文本搜索系统。这些工具允许您利用先进的文本嵌入和索引能力,实现高准确性和高效率的搜索结果。无论您需要搜索大量文档还是实现推荐系统,这些工具的组合都可以显著提升应用程序的性能和用户体验。

阅读

英文原文

AI好书推荐

AI日新月异,但是万丈高楼拔地起,离不开良好的基础。您是否有兴趣了解人工智能的原理和实践? 不要再观望! 我们关于 AI 原则和实践的书是任何想要深入了解 AI 世界的人的完美资源。 由该领域的领先专家撰写,这本综合指南涵盖了从机器学习的基础知识到构建智能系统的高级技术的所有内容。 无论您是初学者还是经验丰富的 AI 从业者,本书都能满足您的需求。 那为什么还要等呢?

人工智能原理与实践 全面涵盖人工智能和数据科学各个重要体系经典

北大出版社,人工智能原理与实践 人工智能和数据科学从入门到精通 详解机器学习深度学习算法原理

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/1497.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

【InsCode Stable Diffusion 美图活动一期】生成着玩

此为内容创作模板,请按照格式补充内容,在发布之前请将不必要的内容删除 一、 Stable Diffusion 模型在线使用地址: https://inscode.csdn.net/inscode/Stable-Diffusion 二、模型相关版本和参数配置: 三、图片生成提示词与反向…

春秋云境—Initial

文章目录 春秋云境—Initial一、前期准备1、靶标介绍2、相关设备 二、WEB渗透1、ThinkPHP RCE(1)、打开网站(2)、检测漏洞 2、蚁剑连接3、sudo提权4、frpc代理5、fsacn扫描 三、后渗透1、信呼OA RCE(1)、1.…

npm安装依赖报错Unexpected token ‘.‘ 处理

1. 问题 在用nvm切换高版本node版本之后npm install安装项目依赖时报错如下: npm ERR! Unexpected token . 日志信息如下: 报错信息量很少,但是跟高版本node环境下安装依赖有关系。 2. 解决思路 安装低版本的node环境运行项目&#xff…

C++ 多线程编程

1 多线程编程简介 说到多线程编程,就不得不提并行和并发,多线程是实现并发和并行的一种手段。 并行是指两个或多个独立的操作同时进行。 并发是指一个时间段内执行多个操作。 在单核时代,多个线程是并发的,在一个时间段内轮流…

RabbitMQ死信交换机、TTL及延迟队列

一,死信交换机 1,什么是死信交换机 了解死信交换机之前我们先来了解一下什么是死信,当一个队列满足下面的三种情况的时候我们一般称为死信(dead letter): 消费者使用basic.reject或 basic.nack声明消费失…

小白入门深度学习 | 6-6:Inception v3 算法原理

一、理论基础 Inceptionv3论文:Rethinking the Inception Architecture for Computer Vision.pdf Inception v3由谷歌研究员Christian Szegedy等人在2015年的论文《Rethinking the Inception Architecture for Computer Vision》中提出。Inception v3是Inception网络系列的第三…

petalinux 无法通过SDK进行TCF调试

IP地址设置没问题 但是无法进行DEBUG 原因是没有开启debug模式,做下图设置重新编译程序生成BOOT.bin即可

追踪 Kubernetes 中的 DNS 查询

在过去的文章中,我们曾 追踪过 Kubernetes 中的网络数据包,这篇文章将追踪 Kubernetes 中的 DNS 查询。 让我们以在 Pod 中解析 Service 完全限定域名(FQDN) foo.bar.svc.cluster.local 为例。 在开始之前,先回顾下 …

微信小程序的目录解析--【浅入深出系列001外篇】

浅入深出系列总目录在000集 如何0元学微信小程序–【浅入深出系列000】 文章目录 本系列校训学习资源的选择先说总目录经常碰到的文件(目录)最最常见的目录pages次最常用的就是images 目录 操作起来真正的操作 配套资源 本系列校训 用免费公开视频,卷…

Nginx问题汇总

为什么Nginx性能这么高? 主要是因为他的事件处理机制:异步非阻塞事件处理机制(事件驱动的异步模型):运用了epoll模型,Nginx 会创建一些事件对象,然后将这些事件对象注册到事件驱动器中。当事件…

串口wifi6+蓝牙二合一系列模块选型参考和外围电路参考设计-WG236/WG237

针对物联网数据传输,智能控制等应用场景研发推出的高集成小尺寸串口WiFi串口蓝牙的二合一组合模块。WiFi符合802.11a/b/g/n无线标准,蓝牙支持低功耗蓝牙V4.2/V5.0 BLE/V2.1和EDR,WiFi部分的接口是UART,蓝牙部分是UART/PCM 接口。模…

3Ds max图文教程:高精度篮球3D建模

推荐: NSDT场景编辑器助你快速搭建可二次开发的3D应用场景 第 1 步。使用以下设置在顶部视口上创建球体: 第 2 步。将球体转换为可编辑的多边形: 第 3 步。转到 Edge 子对象级别并剪切以下边缘: 第 4 步。选择以下边,然…

什么是 Elasticsearch 索引?

作者:David Brimley 索引这个术语在科技界已经被用满了。 如果你问大多数开发人员什么是索引,他们可能会告诉你索引通常指的是关系数据库 (RDBMS) 中与表关联的数据结构,它提高了数据检索操作的速度。 但什么是 Elasticsearch 索引&#xff…

自然语言处理从入门到应用——LangChain:代理(Agents)-[自定义MRKL代理]

分类目录:《自然语言处理从入门到应用》总目录 本文将介绍如何创建自己的自定义MRKL Agent。MRKL Agent由三个部分组成: 工具:代理可用的工具。LLMChain:生成以一定方式解析的文本,以确定要采取哪个动作。代理类本身&…

目标检测YOLO实战应用案例100讲-基于深度学习的雾天交通图像车辆及行人目标检测研究

目录 前言 图像去雾算法 目标检测算法 相关理论及图像去雾实验

k8s-rancher应用

Rancher 管理 Kubernetes 集群 //Rancher 简介 Rancher 是一个开源的企业级多集群 Kubernetes 管理平台,实现了 Kubernetes 集群在混合云本地数据中心的集中部署与管理, 以确保集群的安全性,加速企业数字化转型。超过 40000 家企业每天使用 …

Stable Diffusion配置要求,显卡推荐

Stable Diffusion 是一款流行的人工智能图像生成器,您可以在自己的 PC 上运行。但是运行Stable Diffusion的最低规格是多少,哪些组件最重要? Stable Diffusion需要什么 PC 硬件? Stable Diffusion最关键的一个组件是显卡 (GPU)。…

基于scrcpy的Android群控项目重构,获取Android屏幕元素信息并编写自动化事件

系列文章目录 基于scrcpy的远程调试方案 基于scrcpy的Android群控项目重构 基于scrcpy的Android群控项目重构 进阶版 基于scrcpy的Android群控项目重构,获取Android屏幕元素信息并编写自动化事件(视频) 基于scrcpy的Android群控项目重构…

大数据技术笔试题库--带答案

一、单选: 1、下列选项中,执行哪一个命令查看Linux系统的IP配置。A A、ipconfig B、find C、ifconfig D、arp -a 2、在MapReduce程序中,map()函数接收的数据格式是(D)。 A、字符串 B、整型 C、Long D、键值对 3、下列选…

全国节能宣传周丨物通博联智慧能源解决方案助力节能降碳

今年7月10日至16日,为全国第33个节能宣传周。今年全国节能宣传周活动主题是“节能降碳,你我同行”。 全国节能宣传周活动是在1990年国务院第六次节能办公会议上确定的活动周,开展该活动是实施全面节约战略、开展节能降碳宣传教育、推动形成绿…