2024 年最新 Python 基于 LangChain 框架基础案例详细教程(更新中)

LangChain 框架搭建

安装 langchain

pip install langchain -i https://mirrors.aliyun.com/pypi/simple/

安装 langchain-openai

pip install langchain-openai -i https://mirrors.aliyun.com/pypi/simple/

ChatOpenAI 配置环境变量

在这里插入图片描述
环境变量

OPENAI_API_KEY=OpenAI API 密钥
OPENAI_BASE_URL=OpenAI API 基础 URL

OPENAI_API_KEY

这是你的 OpenAI API 密钥。当你注册 OpenAI 并创建一个新的 API 密钥时,你会得到一个唯一的密钥字符串。这个密钥用于在你的应用程序和 OpenAI API 之间进行身份验证。当你调用 OpenAI API 的任何端点时,你都需要在请求中包含这个 API 密钥。这通常是通过在请求头中添加一个 Authorization 字段来完成的,其值为 Bearer [你的API密钥]。

OPENAI_BASE_URL
这是 OpenAI API 基础 URL。对于大多数用户来说,这个值通常是固定的,并指向 OpenAI 的官方 API 服务器。但是,有些用户可能会出于各种原因(如使用自定义的 API 网关或代理)而需要更改这个值。

在这里插入图片描述
Model I / O 说明
在这里插入图片描述

本地知识库原理

在这里插入图片描述

ChatOpenAI invoke

ChatOpenAI 的 invoke 方法是用于触发与 ChatOpenAI 模型进行交互的函数。此方法的具体实现和参数可能会根据你所使用的库或框架而有所不同,但一般来说,其目标是向模型发送一个输入(如消息或文本),并接收模型的响应。

from langchain_openai import ChatOpenAI
import dotenv
dotenv.load_dotenv(".env")llm = ChatOpenAI()
result = llm.invoke("hello")
print(result.content)"""
result = llm.invoke("hello")
print(result)
content='Hello! How can I assist you today?' response_metadata={'token_usage': {'completion_tokens': 9, 'prompt_tokens': 8, 'total_tokens': 17}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None} id='run-fe5d5321-dd8b-4585-9eba-4fb71a39937e-0' usage_metadata={'input_tokens': 8, 'output_tokens': 9, 'total_tokens': 17}
"""

ChatPromptTemplate

LangChain 中的 ChatPromptTemplate 是用于在聊天领域构建特定提示模板的工具。它允许开发者在聊天环境中以结构化的方式创建提示,从而指导模型生成连贯且相关的输出。

创建使用

ChatPromptTemplate可以通过几种方式创建,包括使用列表和更具体的MessagePromptTemplates(如AIMessagePromptTemplate和HumanMessagePromptTemplate)。创建时,开发者可以指定角色(如AI或人类)和内容,从而定义对话的上下文和流程。

from langchain_openai import ChatOpenAI
from langchain_core.prompts import ChatPromptTemplate
import dotenv
dotenv.load_dotenv(".env")llm = ChatOpenAI()prompt = ChatPromptTemplate.from_messages([("system", "你是边缘骇客机器人"),("user", "{input}")
])chain = prompt | llm
result = chain.invoke({"input": "你是谁?"})
print(result)"""
content='我是边缘骇客机器人,专注于为您提供计算机和网络安全方面的帮助和建议。您有什么问题可以问我。' response_metadata={'token_usage': {'completion_tokens': 49, 'prompt_tokens': 29, 'total_tokens': 78}, 'model_name': 'gpt-3.5-turbo', 'system_fingerprint': None, 'finish_reason': 'stop', 'logprobs': None} id='run-c9439b2d-e5c8-488b-9c72-384a2c4405db-0' usage_metadata={'input_tokens': 29, 'output_tokens': 49, 'total_tokens': 78}
"""

总结来说,LangChain的ChatPromptTemplate是一个强大的工具,用于在聊天场景中构建和管理提示。通过提供结构化和灵活的方式来创建聊天提示,它可以帮助开发者创建更加自然和连贯的对话体验。

TextLoader 文档加载

langchain_community 和 langchain 区别

langchain_community 和 langchain 在 LangChain 框架中分别担任不同的角色和功能。langchain_community 主要负责第三方集成。它提供了与各种外部服务和库(如数据库、API等)集成的接口和工具,扩展了 LangChain 的功能和应用范围。langchain 作为 LangChain 框架的核心部分,它提供了构建基于大型语言模型(LLM)的应用所需的组件和工具。这包括链(Chains)、代理(Agents)、检索策略等,用于构建复杂的业务流程和智能代理。

langchain_community 当开发者需要将其 LangChain 应用与特定的外部服务(如数据库、API等)集成时,会用到 langchain_community 提供的工具和接口。langchain 在构在这里插入代码片建基于 LLM 的应用时,开发者会使用 langchain 提供的链、代理和检索策略等组件来定义业务流程、处理任务和对话。

安装 langchain_community

pip install langchain_community

读取 document.txt 文档

from langchain_community.document_loaders import TextLoaderloader = TextLoader("document.txt", encoding="UTF-8")
data = loader.load()
print(data)
[Document(page_content='床前明月光,疑是地上霜。', metadata={'source': 'document.txt'})]

常见问题

from langchain.document_loaders import TextLoader

Please install langchain-community to access this module. You can install it using `pip install -U langchain-community`

WebBaseLoader 网络加载

在这里插入图片描述

详细源码

from langchain_community.document_loaders import WebBaseLoader
from langchain_text_splitters import RecursiveCharacterTextSplitterloader = WebBaseLoader("https://baike.baidu.com/item/%E9%9B%A8%E9%9C%96%E9%93%83/668352?fr=ge_ala")
data = loader.load()
print(data)text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
splits = text_splitter.split_documents(data)
print(len(splits))

Chroma 数据库

Chroma 数据库是一个高性能的向量数据库,专为处理大规模高维向量数据而设计。它采用高效的索引结构和算法,支持多种相似度度量标准,如欧氏距离和余弦相似度,能够快速且准确地完成向量搜索任务。

Chroma 数据库适用于各种需要处理高维向量数据的场景,如图像识别、自然语言处理、推荐系统等,具有分布式架构、数据压缩、容错恢复等特性,确保系统的稳定性和可扩展性。通过Chroma数据库,用户可以轻松构建高效、准确的向量搜索系统,实现数据的高效利用和价值挖掘。

安装 Chroma 数据库

pip install chromadb

详细源码

from langchain_community.document_loaders import WebBaseLoader
from langchain_community.vectorstores import Chroma
from dotenv import load_dotenvload_dotenv(".env")from langchain_openai import OpenAIEmbeddingsloader = WebBaseLoader("https://baike.baidu.com/item/%E9%9B%A8%E9%9C%96%E9%93%83/668352?fr=ge_ala")
data = loader.load()# from langchain_text_splitters import RecursiveCharacterTextSplitter
# text_splitter = RecursiveCharacterTextSplitter(chunk_size=500, chunk_overlap=0)
# splits = text_splitter.split_documents(data)
# print(len(splits))embedding_model = OpenAIEmbeddings()
db = Chroma.from_documents(documents=data, embedding=embedding_model)
print(db)retriever = db.as_retriever(search_kwargs={'k': 1})
docs = retriever.get_relevant_documents("雨霖铃第一句")
print(docs)
<langchain_community.vectorstores.chroma.Chroma object at 0x0000017A90E4E810>[Document(page_content='雨霖铃(词牌名)_百度百科······', 'language': 'No language found.', 'source': 'https://baike.baidu.com/item/%E9%9B%A8%E9%9C%96%E9%93%83/668352?fr=ge_ala', 'title': '雨霖铃(词牌名)_百度百科'})]

常见问题

pip install chromadb

ImportError: Could not import chromadb python package. Please install it with `pip install chromadb`.

BaseRetriever.get_relevant_documents

The method `BaseRetriever.get_relevant_documents` was deprecated in langchain-core 0.1.46 and will be removed in 0.3.0. Use invoke instead.
query_result = db.search("雨霖铃第一句", search_type='similarity')
print(query_result)

腾讯云向量数据库

地址:https://buy.cloud.tencent.com/vector

新建安全组

在这里插入图片描述
创建向量数据库实例

在这里插入图片描述
查看密钥

在这里插入图片描述
在这里插入图片描述

腾讯云 AI 套件

官方文档:https://cloud.tencent.com/document/product/1709/102189

什么是 AI 套件?

AI 套件是腾讯云向量数据库(Tencent Cloud VectorDB)提供的一站式文档检索解决方案,包含自动化文档解析、信息补充、向量化、内容检索等能力,并拥有丰富的可配置项,助力显著提升文档检索召回效果。用户仅需上传原始文档,数分钟内即可快速构建专属知识库,大幅提高知识接入效率。

设计思想

AI 套件检索方案提供完整的文档预处理和灵活的内容检索能力。用户只需上传 Markdown 格式的文档文件。腾讯云向量数据库将自动进行文本切分(Split)、信息补充、向量化(Embedding)和索引构建等一系列操作,完成知识库的建立。在进行检索时,会先基于切分后的内容进行相似度计算,并结合词(Words)向量进一步对检索结果进行精排,最终返回排名靠前的 Top K 条数据和其上下文内容。这种综合利用词级别做精排的检索方式,提供了更专业、更精确的内容检索体验。

在这里插入图片描述
AI 类 Database

AI 类 Database 是专门用于 AI 套件上传和存储文件的向量数据库系统,可用于构建知识库。用户可以直接将文件上传至 AI 类 Database 下的 CollectionView 中,自动构建个性化的知识库。

CollectionView 集合视图

AI 类数据库文档组的集合视图,由多个 DocumentSet 组成,每个 DocumentSet 存储一组数据,对应一个文件数据。多个 DocumentSet 构成一个 CollectionView。

DocumentSet 文档集合

相对 Document 来说 DocumentSet 是 AI 类数据库中存储在 CollectionView 中的非结构化数据,是文件被拆分成多个 Document 的集合。每个DocumentSet 存储一组数据,对应一个文件,是 CollectionView 下存储文件的最小单元。

Metadata 文件元数据

文件元数据 指上传文件时所携带的文件元数据信息,可以包括文件的名称、作者、创建日期、文件类型等信息。所有元数据被自动解析为标量字段,以Key-Value格式存储。用户可根据元数据构建标量字段的 Filter 索引,以检索并管理文件。

Word 词语

词语 是智能文档检索中最小的分割粒度,通常由一个或多个字符组成。在结果召回时,将对召回段落中所有 Words 进行相似性计算,以便于根据词向量进一步对检索结果做精排。

当前支持导入数据库的文件类型包含: Markdown、PDF、Word、PPT

使用 AI 套件上传文件、检索

GitHub 地址:https://github.com/Tencent/vectordatabase-sdk-python

pip install tcvectordb
URL=http://lb-mu3i2g1v-niutm5zpejq7oshw.clb.ap-shanghai.tencentclb.com:10000
KEY=mgeZvc1uQFaKVfnicx0roPaqPkVD3c9Hgy89K2CT
import osimport tcvectordb
import dotenv
dotenv.load_dotenv(".env")vdbclient = tcvectordb.VectorDBClient(url=os.getenv("URL"), key=os.getenv("KEY"), username="root")def vdbInit():db = vdbclient.create_ai_database("test_db")collView = db.create_collection_view("test_collView")collView.load_and_split_text(local_file_path="readme.md")print('upload file sucess')def knowledgeSearch(query):db = vdbclient.database('test_db')collView = db.collection_view('test_collView')doc_list = collView.search(content=query, limit=3)knowledge = "根据问题检索到知识内容:\n"knowledge_id = 1for item in doc_list:knowledge += f"知识内容{knowledge_id}:\n{item.data.text}\n"knowledge_id += 1return (knowledge)if __name__ == "__main__":vdbInit()query = input("请填写查询内容:")print(knowledgeSearch(query))

RAG 检索增强生成

技术背景

RAG 概念最初由 Facebook AI Research(FAIR)团队在 2020 年提出,并在论文《Retrieval-Augmented Generation for Knowledge-IntensiveNLPTasks》中进行了详细介绍。

应用场景

RAG 技术可以应用于各种需要利用外部知识来增强模型输出的情况,如知识密集型的自然语言处理任务、问答系统等。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/29148.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

生成式人工智能如何改变客户服务

生成式人工智能不仅重新定义了品牌与客户的互动方式&#xff0c;还重新定义了品牌如何优化内部资源&#xff0c;以提供更加个性化和高效的服务。 了解在就业和效率方面的挑战和机遇&#xff0c;使用生成式人工智能工具进行客户服务和支持任务。 生成式人工智能不仅重新定义了品…

【Quartus 13.0】EP1C3144I7 部署4*6矩阵键盘

仿照 正点原子 的 Sample 修改 V2手册 P266 没有用这个 给出的手动按键控制的矩阵模块 为 4*6 矩阵键盘外接模块 每一个按键自带led&#xff0c;所以对应的接口是合并在一起的一个引脚 按下后 LED 亮&#xff0c;vice versa 底部 LED*8 目前不清楚有什么用 或许可以变成 16进…

外链跳转到小程序原生的企业客服

备注&#xff1a; 在外链中&#xff0c;不能直接调起小程序原生客服&#xff08;wx.openCustomerServiceChat&#xff09;。 解决方法&#xff1a; 小程序里新增一个原生的过渡页面。外链跳转到过渡页面&#xff0c;在过渡页面添加点击事件&#xff0c;打开原生客服 在外链中…

Swift Combine — Publisher、Operator、Subscriber概念介绍

Combine框架介绍 Combine框架提供了一个声明式Swift API&#xff0c;用于处理随时间变化的值。这些值可以表示多种异步事件。Combine声明发布者公开发布可能随时间变化的值&#xff0c;并声明订阅者从发布者接收这些值。 Combine框架为应用程序如何处理事件提供了一种声明式的…

《Cloud Native Data Center Networking》(云原生数据中心网络设计)读书笔记 -- 02 Clos拓扑

本章回答以下问题&#xff1a; 什么是 Clos 拓扑&#xff0c;它与“接入 - 汇聚 - 核心”拓扑有何不同?Clos 拓扑的特征是什么?Clos 拓扑对数据中心网络的影响是什么? Clos拓扑 云原生数据中心基础设施的先行者们想要构建一种支持大规模水平扩展网络。 基本的Clos拓扑如图…

检查HIVE分区是否连续

检查HIVE分区是否连续 场景描述分区连续性检查语句 我们经常可能会有这样的诉求&#xff0c;需要对一张目标表进行分区检查&#xff0c;查看是否存在不连续的情况&#xff0c;该诉求频繁且重要&#xff0c;因此以下语句可以实现我们的诉求 场景描述 我们有一张表&#xff0c;…

精准营销是一种利用大数据和人工智能技术来定位目标客户的方法

精准营销是一种利用大数据和人工智能技术来定位目标客户的方法。下面是涉及到的用户类型和业务流程,以及开发难度评估: 用户类型: 活跃用户:经常使用产品或服务的用户。潜在用户:尚未使用产品或服务,但可能对其感兴趣的用户。流失用户:曾经使用过产品或服务,但已经停止使用或…

在Gradle中优雅地统一管理依赖

前言 不知大家在使用 Gradle 的时候是如何统一管理整个项目所需依赖的版本呢&#xff1f;尤其是在有多个模块的情况下。 曾经我写过 一篇文章 来介绍如何在 buildSrc 中使用常量来管理版本&#xff0c;但是实际上那种做法并不怎么优雅&#xff0c;甚至有些邪道。 当然&#…

记录一下 Chrome浏览器打印时崩溃问题

问题描述&#xff1a; 为了查看页面内存占用情况&#xff0c;按F2,打开Memory chrome浏览器点击“打印”按钮&#xff0c;或Ctrl P 时出现如下页面 一直以为是页面问题&#xff0c;每次打印的时候遇到这种 崩溃现象 就是重新刷新页面 但今天刚开一个页面&#xff0c;内存 …

【2024最新精简版】RabbitMQ面试篇

文章目录 Kafka和RabbitMQ什么区别惰性队列&#xff08;Lazy Queues&#xff09;是怎么实现的&#xff1f;RabbitMQ工作模式有哪些 ?你们项目中哪里用到了RabbitMQ ?为什么会选择使用RabbitMQ ? 有什么好处 ?使用RabbitMQ如何保证消息不丢失 ?消息的重复消费问题如何解决的…

Unity中使用UI组件实现场景切换——6.18山大软院项目实训

设置场景切换 在Unity项目中&#xff0c;首先需要准备几个场景&#xff0c;并在项目的“Build Settings”中添加这些场景&#xff0c;以确保SceneManager可以加载它们。本例中&#xff0c;我们假设已有几个场景编号依次为1到5。 脚本概述 我们创建了一个SwitchScene类&#…

在IDEA 2024.1.3 (Community Edition)中创建Maven项目

本篇博客承继自博客Windows系统Maven下载安装-CSDN博客 Maven版本&#xff1a;maven-3.9.5 修改设置&#xff1a; 首先先对Idea的Maven依赖进行设置&#xff1b;打开Idea&#xff0c;选择“Costomize”&#xff0c;选择最下边的"All settings" 之后找到Maven选项&…

利用LabVIEW项目管理和组织LabVIEW应用程序

如何利用LabVIEW项目管理和组织LabVIEW应用程序&#xff0c;提供了关于文件定义、磁盘上的文件组织、LabVIEW项目浏览器、交叉链接和相关资源的建议。这些推荐在开发前就应建立&#xff0c;以确保应用程序能扩展到大量VIs并适应多开发者环境。 目录 定义和识别应用程序文件 磁…

黑龙江等保测评与企业安全:携手共筑数字时代坚固防线

在数字化转型的浪潮中&#xff0c;黑龙江的企业正以前所未有的速度拥抱新技术&#xff0c;推动业务创新与增长。然而&#xff0c;随着信息技术的深入应用&#xff0c;网络安全风险也随之增加&#xff0c;尤其是对个人信息与敏感数据的保护成为企业不容忽视的重大课题。信息安全…

【运维项目经历|032】Hadoop大数据处理与分析平台构建项目

🍁博主简介: 🏅云计算领域优质创作者 🏅2022年CSDN新星计划python赛道第一名 🏅2022年CSDN原力计划优质作者 🏅阿里云ACE认证高级工程师 🏅阿里云开发者社区专家博主 💊交流社区:CSDN云计算交流社区欢迎您的加入! 目…

List, Set, Map, Queue介绍

Java集合框架是一组接口和实现这些接口的类的集合&#xff0c;它提供了对数据集合的高效率存储和操作。以下是Java集合框架中一些核心接口的介绍&#xff1a; 1.List&#xff1a; List是一个有序的集合&#xff0c;允许包含重复的元素。它提供了按插入顺序访问元素的方法&…

leetcode56 合并区间

题目 以数组 intervals 表示若干个区间的集合&#xff0c;其中单个区间为 intervals[i] [starti, endi] 。请你合并所有重叠的区间&#xff0c;并返回 一个不重叠的区间数组&#xff0c;该数组需恰好覆盖输入中的所有区间 。 示例 输入&#xff1a;intervals [[1,3],[2,6]…

6、 垃圾回收 浏览器事件循环

垃圾回收 & 浏览器事件循环 垃圾回收引用计数算法标记清除&#xff08;mark-sweep&#xff09;算法标记整理&#xff08;Mark-Compact&#xff09;算法 内存管理浏览器事件循环宏任务微任务整体流程 垃圾回收 垃圾回收&#xff0c;又称为&#xff1a;GC&#xff08;garbag…

华火新能源集成灶评测:创新与品质的融合

在厨房电器的不断推陈出新中&#xff0c;华火新能源集成灶以其独特的魅力进入了人们的视野。今天&#xff0c;我们就来深入评测这款备受关注的产品——华火新能源集成灶 一、华火新能源集成灶的创新与环保 首先&#xff0c;我们先来探讨新能源集成灶的整体表现。华火新能源集成…

【面试干货】Hashtable 与 HashMap 的区别

【面试干货】Hashtable 与 HashMap 的区别 1、线程安全性2、对null值的处理3、遍历方式4、遍历示例5、总结 &#x1f496;The Begin&#x1f496;点点关注&#xff0c;收藏不迷路&#x1f496; 在Java中&#xff0c;Hashtable和HashMap都是基于哈希表实现的Map接口。然而&#…