书生·浦语大模型实战营 | 第3次学习笔记

前言

书生·浦语大模型应用实战营 第二期正在开营,欢迎大家来学习。(参与链接:https://mp.weixin.qq.com/s/YYSr3re6IduLJCAh-jgZqg

第三堂课的视频链接:https://www.bilibili.com/video/BV1QA4m1F7t4/

本次笔记是学习完第三堂课,结合自己关心内容而创作,更偏向个人。尽管有很多细节丢失,但组织出来的内容仍反映本节课的关键知识、也是我的收获,与大家分享。

论述

引出RAG

RAG中文名叫检索生成技术,它是怎样一个技术呢?
市面上有很多通用大模型
这是书生浦语自主研发的模型评测平台

它们神通广大、无所不知,有着惊人的能力。但是事情总有我们不如意的时候,这些通用大模型可能会在某些垂直领域回答还是不尽人意,无法满足我们的业务需求。怎么办?

我们可以微调大模型,去更新它的网络参数。但面对闭源模型,你没办法了。还能怎么办?RAG技术就可以解决这样的困境,在不改变大模型本身能力的同时,能提升它回答的表现!这是一种神奇的方法,一种外挂知识库的方法。

RAG到底是怎么做到的?简单点说就是从直接prompt到给大模型做阅读理解将用户的提问去知识库里匹配相关的信息,然后组合在一起再prompt给大模型。实践验证这种方法很好,大大提升了相关领域的回答表现。

我们来看RAG技术加持下,大模型问答的运行机制是怎样的

RAG技术加持的大模型的运行机制

请添加图片描述

以上就是大模型问答实质的运行机制。接下来,我以开发者的视角来讲解这张图

前面我们已经知道RAG实际是怎么提升回答表现的。作为开发者呢,我们首先得去搭建知识库,整个开发的过程我们都是再Langchain框架下的,在该框架下让我们的开发更容易。

我们收集了大量的文件材料,它们有word、有excel、pdf、markdown等等等等。我们首先做的就是对这些文件材料去除格式,这里我们就要用到去除文本结构器,就是个工具,不必焦虑在哪里找它们,Langchain为你们提供了。去除了文件的格式我们得到了纯字符串的文本信息。

这一个字符串可能10万个字符,我们要对它切割,用Langchain提供的文本分割器来实现。我们得到了文本片段集合,然后对这一个个片段进行编码成一个个向量,这种形式的信息方便进行相关度比较。于是我们构建起了向量数据库,也可以叫做知识库,里面都是知识嘛。

这都是开发阶段做的工作。在实际用户提出一个提问/prompt后是怎样个运行机制呢?

首先用户的提问也要进行编码成向量,为了可以与向量数据库的信息检索匹配嘛。然后从向量数据库里检索出了相关的向量信息。直接将向量输入到大模型?我们做不了。那是要解码吗?也不是,实际上无论是prompt向量还是知识库里的向量,在编码的时候都是建立了与自然语言文本一一对应的关系的。我们直接凭借着这个对应关系,找到对应的自然语言文本拼接在一起就行了。然后就是喂给大模型,图中展示的是Internlm大模型。最后我们就得到了回答了。以上就是理论上RAG下的大模型问答的运行机制。




————————
以上就是我本篇想讲的所有内容了,如果这篇文章对你有价值的话,还请点个赞,你的支持对我非常重要!

我是阿航,一位胆大包天、梦想成为大牛的学生~

我们下篇文章接着聊

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/812415.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

STM32使用标准版RT-Thread,移植bsp中的板文件后,想使用I/O设备模型,使用串口3或者串口4收发时,发现串口3或者串口4没反应

STM32移植RT-Thread出现的问题及解决办法 问题原因解决方法 问题 使用标准版RT-Thread,移植bsp中的板文件后,想使用I/O设备模型,使用串口3或者串口4收发时,发现串口3或者串口4没反应。出现问题:程序一直跑在 while (__HAL_UART_…

数据结构课程设计(七)---求图的中心顶点 [图]

1.7.1 题目内容 1.7.1-A [问题描述] 假设有一个公司在某个地区有n个产品销售点,现根据业务需要打算在其中某个销售点上建立一个中心仓库,负责向其它销售点提供产品。由于运输线路不同,运输费用也不同。假定每天需要向每个销售点运输一次产品…

[深度学习] 无人车避开赛道边的障碍物

https://developer.horizon.cc/forumDetail/146176821770230117 https://developer.horizon.cc/nodehubdetail/184587678518566921 https://developer.horizon.ai/forumDetail/185446132959372300 https://developer.horizon.ai/forumDetail/185446371330059463 用精灵标注助手…

伪装目标检测论文阅读之:《Confidence-Aware Learning for Camouflaged Object Detection》

论文地址:link code:link 摘要:   任意不确定性捕获了观测结果中的噪声。对于伪装目标检测,由于伪装前景和背景的外观相似,很难获得高精度的注释,特别是目标边界周围的注释。我们认为直接使用“嘈杂”的伪装图进行训…

C语言 知识点 + 笔记(2w7千字 持续更新...)

目录 前言 第 1 章 C语言的流程 计算机基础 (1) 十进制转 N 进制 例1 十进制转二进制 例2 十进制转八进制 例3 十进制十六进制 (2) N进制 转十进制 例1 二进制转十进制 例2 八进制转十进制 例3 十六进制转十进制 (3) 原码反码补码 第 2 章 数据类型、运算符和表达…

k8s-pod设置执行优先级

Pod的优先级管理是Kubernetes调度中的一个重要特性,通过PriorityClass(优先级类)的设置,我们可以为Pod指定不同的优先级,从而在资源有限的情况下更精细地调整调度顺序 什么是PriorityClass? PriorityClass是…

【InternLM 实战营第二期-笔记1】书生浦语大模型开源体系详细介绍InternLM2技术报告解读(附相关论文)

书生浦语是上海人工智能实验室和商汤科技联合研发的一款大模型,很高兴能参与本次第二期训练营,我也将会通过笔记博客的方式记录学习的过程与遇到的问题,并为代码添加注释,希望可以帮助到你们。 记得点赞哟(๑ゝω╹๑) 书生浦语大模型开源体系…

Zookeeper中的节点类型和实现持久化的两种方式

进入zookeeper的bin目录,执行./zkServer.sh start ../conf/zoo.cfg启动! Zookeeper内部的数据模型 类似于数据结构中的树,同时也很像文件系统的目录, 节点的类型 持久节点:create /znode 创建出的节点&#xff0c…

Shell脚本学习(一):Shell入门与Shell变量

Shell学习章节目录 Shell入门与Shell变量。 Shell内置命令。 Shell运算符与执行运算命令。 流程控制语句。 Shell函数。 Shell重定向。 Shell好用的工具,cut sed awk sort。 大厂常见企业面试题。 Shell入门:介绍 对于入门,我们需要知道几…

加密行业4大新趋势:Restaking、Layer3、AI、DePin

Web3经济是由用例、创新、炒作和趋势驱动的,而用户活动构成了这些驱动力的基础,也是评估加密项目或板块增长潜力的关键指标。趋势造就了加密市场的热点,并推动市场周期的价格发现。 上一次牛市周期,我们见证了元宇宙和NFT项目的爆…

2011年认证杯SPSSPRO杯数学建模A题(第一阶段)客机水面迫降时的姿态全过程文档及程序

2011年认证杯SPSSPRO杯数学建模 A题 客机水面迫降时的姿态 原题再现: 2009 年 1 月 15 日下午(美国东部时间),US Airways 所属第 1549 航班(空中客车 A320 客机)在起飞后不久在纽约哈德逊河紧急迫降。经及…

【算法刷题 day23】Leetcode: 669. 修剪二叉搜索树 108.将有序数组转换为二叉搜索树 538.把二叉搜索树转换为累加树

669. 修剪二叉搜索树 文档链接:[代码随想录] 题目链接: 669. 修剪二叉搜索树 题目: 给你二叉搜索树的根节点 root ,同时给定最小边界low 和最大边界 high。通过修剪二叉搜索树,使得所有节点的值在[low, high]中。修剪树…

开发有哪些常见陷阱?

引言 在当今数字化时代,软件开发已成为推动科技进步和商业发展的重要引擎。然而,软件开发并非一帆风顺,其中蕴藏着许多陷阱和挑战。如何避免这些陷阱,提高软件开发的效率和质量,成为开发者们面临的重要问题 本文将深…

【linux深入剖析】动态库的使用(续) | 动静态库的链接

🍁你好,我是 RO-BERRY 📗 致力于C、C、数据结构、TCP/IP、数据库等等一系列知识 🎄感谢你的陪伴与支持 ,故事既有了开头,就要画上一个完美的句号,让我们一起加油 目录 回顾1. 打包库的使用2. 动…

智能体Agent是AI时代普通人可参与的第一个红利机会

自从生成式 AI 兴起,掌握 prompt 能让 AI 工具更好为我们服务。而智能体的出现,让 AI 的使用门槛更是不断降低——都不用写 Prompt 了,直接用智能体就行了。 智能体Agent是AI时代普通人可参与的第一个红利机会© 由 ZAKER科技 提供 前几…

数据中心如何选择万兆光模块?

在数据中心的网络架构中,选择适合的万兆光模块是至关重要的。在选择过程中,万兆多模光模块、万兆电口模块和10G DAC是三种常见的方案。万兆光模块的选择直接关系到数据传输的速度、稳定性和成本效益。在选择过程中,我们可以从延迟、功耗、应用…

ActiveMQ 01 消息中间件jmsMQ

消息中间件之ActiveMQ 01 什么是JMS MQ 全称:Java MessageService 中文:Java 消息服务。 JMS 是 Java 的一套 API 标准,最初的目的是为了使应用程序能够访问现有的 MOM 系 统(MOM 是 MessageOriented Middleware 的英文缩写&am…

4.9总结(Stream流,方法引用概述 || 乘法逆元,组合数)

Stream流 基本概念:以更简便的方式操作集合数据的形式; Steam流的操作步骤: 获取Stream流 中间方法:去重,跳过,获取, 过滤, 合并流,转换类型; 终结方法&…

2024-4-12-实战:商城首页(下)

个人主页:学习前端的小z 个人专栏:HTML5和CSS3悦读 本专栏旨在分享记录每日学习的前端知识和学习笔记的归纳总结,欢迎大家在评论区交流讨论! 文章目录 作业小结 作业 .bg-backward {width: 60px; height: 60px;background: url(..…

SpringMVC--02--上下文工具类(RequestContextHolder)

提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 RequestContextHolder背景1.RequestContextHolder的使用2.request和response怎么和当前请求挂钩?3.request和response等是什么时候设置进去的? 案例应用---用户信…