零基础构建基于LangChain的聊天机器人(3)

检索对象

review_chain的目标是回答有关患者在医院就医体验的问题。到目前为止,已经将患者对医院的评论作为问题的上下文。虽然能回答少量问题,但它不具有很好的扩展性。此外,即使将所有评论放入模型的上下文中,也不能保证它使用正确的评论内容回答问题。

为了克服这个问题,通常需要需要一个检索器。检索相关文档并将它们传给语言模型,用以回答问题,这个过程称为检索增强生成(retrieval-augmented generation, RAG)。

对于这个例子,将把所有评论数据存储在一个名为ChromaDB的向量数据库中。用以下命令安装ChromaDB:

(venv) $ python -m pip install chromadb==0.4.22

安装之后,用以下代码创建一个带有患者评论的ChromaDB向量数据库:

在这里插入图片描述

在 2 到 4 行中,导入了创建向量数据库所需的依赖项。然后定义 REVIEWS_CSV_PATHREVIEWS_CHROMA_PATH ,它们分别是存储原始评论数据的路径和向量数据库存储数据的路径。

稍后会了解医院系统数据的概览,其中 reviews.csv 存储了患者评论。reviews.csv 中的 review 列是一个字符串,包含了患者的评论。

在 11 和 12 行中,使用 LangChain 的 CSVLoader 加载评论。在 14 到 16 行中,使用默认的OpenAI嵌入模型从评论中创建一个ChromaDB实例,并将评论嵌入存储在 REVIEWS_CHROMA_PATH 中。

接下来,在终端中运行以下命令,从项目目录开始:

(venv) $ python langchain_intro/create_retriever.py

它应该只需要一分钟或更短时间就可以运行,之后就可以开始对评论嵌入执行语义搜索:

在这里插入图片描述
在这里插入图片描述

导入了调用ChromaDB所需的依赖项,并指定了存储ChromaDB数据的路径 REVIEWS_CHROMA_PATH 。然后使用dotenv.load_dotenv() 加载环境变量,并创建了一个新的 Chroma 实例,指向向量数据库。注意,当连接到向量数据库时,必须再次指定嵌入函数。确保与用来创建嵌入的嵌入函数相同。

接下来,定义一个问题,并在 reviews_vector_db 上调用 .similarity_search() ,其参数为 questionk=3。这为问题创建了一个嵌入,并在向量数据库中搜索与问题最相似的三个评论。在这种情况下,会看到三个评论输出。

最后一件事是将刚才所编写的评论检索器添加到 review_chain 中,以便将相关评论作为上下文传递给提示。

在这里插入图片描述

像以前一样,导入了ChromaDB的依赖项,指定了ChromaDB数据的路径,并实例化了一个新的Chroma对象。然后通过在 reviews_vector_db 上调用 .as_retriever() 创建了 review_retriever ,这就是即将添加到 review_chain 的检索器对象。因为指定了 k=10 ,检索器将获取与用户问题最相似的十个评论。

然后在 review_chain 的前面添加了一个带有上下文和问题键的字典。而不是手动传递上下文,review_chain 将把问题传递给检索器以获取相关评论。将问题分配给一个 RunnablePassthrough 对象确保问题不变地传递到链的下一步。

现在有了一个完全功能的链,可以根据评论回答有关患者体验的问题。启动一个新的REPL会话并尝试一下:

在这里插入图片描述

如上操作,只需要调用 review_chain.invoke(question) 就可以获得有关患者体验的检索增强答案。稍后还将通过在Neo4j 中存储评论以及其他元数据来改进这个链。

现在你了解了聊天模型、提示、链和检索,接下来会深入了解LangChain的最后一个概念——代理。

如何学习AI大模型?

作为一名热心肠的互联网老兵,我决定把宝贵的AI知识分享给大家。 至于能学习到多少就看你的学习毅力和能力了 。我已将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

一、全套AGI大模型学习路线

AI大模型时代的学习之旅:从基础到前沿,掌握人工智能的核心技能!

img

二、640套AI大模型报告合集

这套包含640份报告的合集,涵盖了AI大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师,还是对AI大模型感兴趣的爱好者,这套报告合集都将为您提供宝贵的信息和启示。

img

三、AI大模型经典PDF籍

随着人工智能技术的飞速发展,AI大模型已经成为了当今科技领域的一大热点。这些大型预训练模型,如GPT-3、BERT、XLNet等,以其强大的语言理解和生成能力,正在改变我们对人工智能的认识。 那以下这些PDF籍就是非常不错的学习资源。

img

四、AI大模型商业化落地方案

img

作为普通人,入局大模型时代需要持续学习和实践,不断提高自己的技能和认知水平,同时也需要有责任感和伦理意识,为人工智能的健康发展贡献力量。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/845730.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

QT天气预报项目(写在简历上)

一、ui设计 实现功能:可以搜索不同的城市进行天气的查询,并且显示未来7天内的天气,并绘制出当天的最高气温和最低气温曲线图。 学到的知识: stylesheet界面美化 Json数据解析 HTTP通信get请求 使用事件过滤器绘制温度曲线 多控件处理(利用数组) 代码整合调试能力 二…

线程思维导图

列出线程所有知识的框架结构,帮助理解线程相关知识,有更好的知识体系 Java相关进阶知识 多线程相关知识,超详细,易懂

windows上进行git初始化时报错:fatal: unknown write failure on standard output

一、报错描述 1、git init命令一般是在命令行,切换到项目的根目录后执行 2、如果是windows的系统,我们粘贴路径时,需要进行转义命令行才能识别, 也就是像我下面写的 D:\\Users\\...3、报错信息进行解读 一般情况下,…

Pytorch-Lighting使用教程(MNIST为例)

一、pytorch-lighting简介 1.1 pytorch-lighting是什么 pytorch-lighting(简称pl),基于 PyTorch 的框架。它的核心思想是,将学术代码(模型定义、前向 / 反向、优化器、验证等)与工程代码(for-…

Anthropic公司CEO谈AI发展:Cluade安全超过商业利益

Anthropic公司今年3月发布的超越GPT-4模型Claude3 opus,成功吸引了大量GPT-4用户“叛变”。 作为OpenAI的头号劲敌,Claude3发布方Anthropic公司的联合创始人兼CEO,达里奥阿莫迪(DarioAmodei)承诺:在能够制…

生信分析进阶4 - 比对结果的FLAG和CIGAR信息含义与BAM文件指定区域提取

BAM文件时存储比对数据的常用格式,可用于短reads和长reads数据。BAM是二进制压缩格式,SAM文件为其纯文本格式,CRAM为BAM的高压缩格式,IO效率相比于BAM略差,但是占用存储空间更小。 1. BAM文件的比对信息 BAM的核心信…

用c语言实现通讯录

目录 静态简易通讯录 代码: 功能模块展示: 设计思路: 动态简易通讯录(本质顺序表) 代码: 扩容模块展示: 设计思路: 文件版本通讯录 代码: 文件模块展示&#x…

SJ705C安全帽高温预处理箱

一、仪器用途 安全帽高温预处理箱是我公司根据安全帽新国家标准检测试验要求而自主设计研发制造。是安全帽检测前做高温预处理的专用设备。 二、仪器特征 1、有PID自整定温度控制仪,控制准确。 2、数显计时、计温器。 3、石英灯管加热系统;。 …

Android 调试桥_ADB命令

Android 调试桥 ADB全称 【Android Debug Bridge】 是Android SDK中的一个命令行工具,adb命令可以直接操作管理Android模拟器或真实的Android设备(手机) ADB的工作原理 启动一个 adb 客户端时,此客户端首先检查是否有已运行的 …

python zip()函数(将多个可迭代对象的元素配对,创建一个元组的迭代器)zip_longest()

文章目录 Python zip() 函数深入解析基本用法函数原型基础示例 处理不同长度的迭代器高级用法多个迭代器使用 zip() 与 dict()解压序列 注意事项内存效率:zip() 返回的是一个迭代器,这意味着直到迭代发生前,元素不会被消耗。这使得 zip() 特别…

自然语言处理基础知识入门(六) GPT模型详解

GPT 前言一、GPT模型1.1 为什么采用Decoder模块?1.2 为什么不使用Encoder模块? 二、 模型训练2.1 预训练阶段2.2 半监督微调 总结 前言 在之前的章节中,深入探究了预训练ELMo模型的架构与实现原理。通过采用双向LSTM架构在大规模文本数据上进…

[数据集][目标检测][数据集][目标检测]智能手机检测数据集VOC格式5447张

数据集格式:Pascal VOC格式(不包含分割的txt文件,仅仅包含jpg图片和对应的xml) 图片数量(jpg文件个数):5447 标注数量(xml文件个数):5447 标注类别数:1 标注类别名称:["phone"] 每个类别标注的框数&#xff…

高德地图 JS API用于绘画船舶轨迹

文章目录 引言I 2.0升级指南1.1 修改 JSAPI 引用中的版本号到 2.01.2 相应修改II 1.4.15 文档引言 地图 JS API 2.0 是高德开放平台免费提供的第四代 Web 地图渲染引擎, 以 WebGL 为主要绘图手段,本着“更轻、更快、更易用”的服务原则,广泛采用了各种前沿技术,交互体验、…

从CSV到数据库(简易)

需求:客户上传CSV文档,要求CSV文档内容查重/插入/更新相关数据。 框架:jdbcTemplate、commons-io、 DB:oracle 相关依赖: 这里本来打算用的2.11.0,无奈正式项目那边用老版本1.3.1,新版本对类型…

iperf3带宽压测工具使用

iperf3带宽压测工具使用 安装下载地址:[下载入口](https://iperf.fr/iperf-download.php)测试结果:时长测试(压测使用):并行测试反向测试UDP 带宽测试 iPerf3 是用于主动测试 IP 网络上最大可用带宽的工具 安装 下载地址&#x…

大话C语言:第21篇 数组

1 数组概述 数组是若干个相同类型的变量在内存中有序存储的集合。 数组是 C 语言中的一种数据结构,用于存储一组具有相同数据类型的数据。 数组在内存中会开辟一块连续的空间 数组中的每个元素可以通过一个索引(下标)来访问,索…

【Python Cookbook】S1E08 在两个字典中寻找相同点

目录 问题解决方案讨论 问题 在两个字典中,如果我们想要找到其中相同的地方,比如相同的键、相同的值等。 解决方案 考虑以下两个字典以及其中内容: a {x: 1,y: 2,z: 3 }b {w: 10,x: 11,y: 2 }要找出这两个字典中的相同之处,…

Java学习19-List、set容器

目录 一.List: 1.List基本介绍: 2.List接口方法: 3.List的三种遍历方式: 4.ArrayList: (1)ArrayLis的基本介绍: (2)ArrayList底层结构和源码分析&…

考研回顾纪录--科软考研失败并调剂兰州大学软件工程专业复试经历

1.背景 本人工作一年后决定考研,遂于2023年4月底离职。5月到家后开始学习。本科东北大学软件工程专业,绩点3.2/5,按照百分制计算是82分。本科纯属混子,只有一个四级551,一个数学竞赛省二等奖,大创学校立项…

vue打包时报错文件包过大

1.问题:npm run build 之后出现 2. 翻译之后意思就是某块过大 3. 解决办法:在vite.config.ts文件上添加 build: { chunkSizeWarningLimit: 1600, }, 4.最终打包