知识库问答LangChain+LLM的二次开发:商用时的典型问题及其改进方案

前言

如之前的文章所述,我司下半年成立大模型项目团队之后,我虽兼管整个项目团队,但为让项目的推进效率更高,故分成了三大项目组

  1. 第一项目组由霍哥带头负责类似AIGC模特生成系统
  2. 第二项目组由阿荀带头负责论文审稿GPT以及AI agent项目
  3. 第三项目组由朝阳带头负责企业多文档的知识库问答系统,朝阳、bingo、猫药师等人贡献了本文的至少一半

对于知识库问答,现在有两种方案,一种基于llamaindex,一种基于langchain +LLM

  • 对于前者,我近期会另外写一篇文章
  • 对于后者,考虑到我已在此文《基于LangChain+LLM的本地知识库问答:从企业单文档问答到批量文档问答》中详细介绍了langchain、以及langchain-ChatGLM项目的源码剖析
    如下图所示,整个系统流程是很清晰的,但涉及的点颇多,所以决定最终效果的关键点包括且不限于:文本分割算法、embedding、向量的存储 搜索 匹配 召回 排序、大模型本身的生成能力

    本文重点则阐述“如何通过基于langchain-chatchat二次开发一个知识库问答系统”,包括其商用时的典型问题以及对应的改进方案,比如
    1 如何解决检索出错:embedding算法是关键之一
    2 如何解决检索到相关但不根据知识库回答而是根据模型自有的预训练知识回答
    3 如何针对结构化文档采取更好的chunk分割:基于规则
    4 如何解决非结构化文档分割不够准确的问题:比如最好按照语义切分
    5 如何确保召回结果的全面性与准确性:多路召回与最后的去重/精排
    6 如何解决基于文档中表格的问答

最后强调一下,本文及后续相关的文章(比如embedding、文本语义分割、llamaindex等)更多是入门/梳理,其中的细节/深入,以及更多问题的解决暂在我司的「大模型项目开发线上营」里见

前置部分 知识库的构建:基于langchain-chatchat的V0.2.6版本(chatglm2+m3e)

将七月近两年整理的大厂面试题PDF文件作为源文件来进行知识库的构建

默认使用RapidOCRPDFLoader作为文档加载器

RapidOCR是目前已知运行速度最快、支持最广,完全开源免费并支持离线快速部署的多平台多语言OCR。由于PaddleOCR工程化不是太好,RapidOCR为了方便大家在各种端上进行OCR推理,将PaddleOCR中的模型转换为ONNX格式,使用Python/C++/Java/Swift/C# 将它移植到各个平台


更多详情参考:https://rapidai.github.io/RapidOCRDocs/docs/overview/

另,本文里的测试及二次开发主要针对langchain-chatchat的V0.2.6版本,资源及相关默认配置如下:

  • 显卡:Tesla P100,16G(显存)
  • 分词器:ChineseRecursiveTextSplitter
  • chunk_size:250 (顺带说一下,250是默认分块大小,但该系统也有个可选项,可以选择达摩院开源的语义分割模型:nlp_bert_document-segmentation_chinese-base )
  • embedding模型:m3e-base
  • LLM模型:chatglm2-6b (默认为该模型,但下文会有些结果来自chatglm3)
  • 向量库:faiss

第一部分 如何解决检索的问题:比如检索出错等

1.1 如何解决检索出错:embedding算法是关键之一

1.1.1 针对「Bert的预训练过程是什么?」检索出的结果与问题不相关

使用原始的langchain-chatchat V0.2.6版本,会出现对某些问题检索不到的情况

比如问一个面试题:Bert的预训练过程是什么?

  •  其在文档中的结果如下:

  • 但实际检索得到的内容如下:

    出处 [1] 2021Q2大厂面试题共121题(含答案及解析).pdf

    成. 15.6 bert 的改进版有哪些 参考答案: RoBERTa:更强大的 BERT 加大训练数据 16GB -> 160GB,更大的batch size,训练时间加长 不需要 NSP Loss: natural inference 使用更长的训练 SequenceStatic vs. Dynamic Masking 模型训练成本在 6 万美金以上(估算) ALBERT:参数更少的 BERT一个轻量级的 BERT 模型 共享层与层之间的参数 (减少模型参数)


    出处 [2] 2022Q1大厂面试题共65题(含答案及解析).pdf

    可以从预训练方法角度解答。
    … 20
    5、RoBERTa 相比 BERT 有哪些改进?

    20 6、BERT 的输入有哪几种 Embedding?


    出处 [3] 2022Q2大厂面试题共92题(含答案及解析).pdf

    保证模型的训练,pre-norm 显然更好一些。 5、GPT 与 Bert 的区别 1) GPT
    是单向模型,无法利用上下文信息,只能利用上文;而 BERT 是双向模型。 2) GPT 是基于自回归模型,可以应用在 NLU 和 NLG两大任务,而原生的 BERT 采用的基于自编码模 型,只能完成 NLU 任务,无法直接应用在文本生成上面。 6、如何加速 Bert模型的训练 BERT 基线模型的训练使用 Adam with weight decay(Adam 优化器的变体)作为优化器,LAMB 是一款通用优化器,它适用于小批量和大批量,且除了学习率以外其他超参数均无需调整。LAMB 优化器支持自

    可以看出,是没有检索到相关内容的
  • 在没检索对的情况下,接下来,大模型便只能根据自己的知识去回答(下图左侧是chatglm2-6b的回答,下图右侧是chatglm3-6b的回答)

1.1.2 可能的原因分析与优化方法

使用默认配置时,虽然上传文档可以实现基础的问答,但效果并不是最好的,通常需要考虑以下几点原因

  1. 文件解析及预处理:对于PDF文件,可能出现解析不准确的情况,导致检索召回率低;
  2. 文件切分:不同的chunk_size切分出来的粒度不一样。如果设置的粒度太小,会出现信息丢失的情况;如果设置的粒度太大,又可能会造成噪声太多,导致模型输出的结果明显错误。且单纯根据chunk_size切分比较简单粗暴,需要根据数据进行针对性优化;
  3. embedding 模型效果:embedding效果不好也会影响检索结果

优化方法:

  • 文件解析及预处理
    一方面可以尝试不同的PDF解析工具,解析更加准确
    另一方面可以考虑将解析后的内容加上标题,并保存成Markdown格式,这样可以提高召回率
  • 文件切分
    基于策略:对于特定的文档,比如有标题的,可以优先根据标题和对应内容进行划分(就是按照题目和对应答案切分成一个块),再考虑chunk_size
    基于语义分割模型:还可以考虑使用语义分割模型
  • 模型效果
    尝试使用更多embedding模型,获得更精确的检索结果。如:piccolo-large-zh 或 bge-large-zh-v1.5等等,下文很快阐述
  • 向量库
    如果知识库比较庞大(文档数量多或文件较大),推荐使用pg向量数据库
    如果文件中存在较多相似的内容,可以考虑分门别类存放数据,减少文件中冲突的内容
  • 多路召回
    结合传统方法进行多路召回
  • 精排
    对多路召回得到的结果进行精排

1.2 如何根据业务场景确定最合适的embedding算法

暂见此文:一文通透文本embedding表示:从m3e、bge到..

第二部分 如何解决检索到相关但不根据相关结果回答

2.1 开源LLM并没有完全根据文档内容来回答,而是根据模型自有的预训练知识回答

LLM问题主要有以下几点:

  1. LLM的回答会出现遗漏信息或补充多余信息的情况
  2. chatglm2-6b还会出现回答明显错误的情况

2.1.1 针对「用通俗的语言介绍下强化学习?」检索到部分相关

比如问一个面试题:用通俗的语言介绍下强化学习?

  1. 该问题在文档中的结果如下:

  2. 检索得到的内容如下:

    出处 [1] 2022Q2大厂面试题共92题(含答案及解析).pdf

    CART 树算法的核心是在生成过程中用基尼指数来选择特征。 4、用通俗的语言介绍下强化学习(Reinforcement Learning)监督学习的特点是有一个“老师”来“监督”我们,告诉我们正确的结果是什么。在我们在小的时候,会有老师来教我们,本质上监督学习是一种知识的传递,但不能发现新的知识。对于人类整体而言,真正(甚至唯一)的知识来源是实践——也就是强化学习。比如神农尝百草,最早人类并不知道哪些草能治病,但是通 过尝试,就能学到新的知识。学习与决策者被称为智能体,与智能体交互的部分则称为环境。智能体与环境不断进行交互,具体而言,这一交互的过程可以看做是多个时刻,每一时刻,智能体根据环境的状态,依据一定的策略选择一个动作(这


    出处 [2] 2021Q3大厂面试题共107题(含答案及解析).pdf

    20.2 集成学习的方式,随机森林讲一下,boost 讲一下, XGBOOST 是怎么回事讲一下。 集成学习的方式主要有 bagging,boosting,stacking 等,随机森林主要是采用了 bagging 的思想,通过自助法(bootstrap)重采样技术,从原始训练样本集 N 中有放回地重复随机抽取 n 个样本生成新的训练样本集合训练决策树,然后按以上步骤生成 m 棵决策树组成随机森林,新数据的分类结果按分类树 投票多少形成的分数而定。 boosting是分步学习每个弱分类器,最终的强分类器由分步产生的分类器组合而成,根据每步学习到的分类器去改变各个样本的权重(被错分的样本权重加大,反之减小) 它是一种基于 boosting增强策略的加法模型,训练的时候采用前向分布算法进行贪婪的学习,每次迭代


    出处 [3] 2022Q2大厂面试题共92题(含答案及解析).pdf

    特征工程可以并行开发,大大加快开发的速度。 训练速度较快。分类的时候,计算量仅仅只和特征的数目相关。 缺点:准确率欠佳。因为形式非常的简单,而现实中的数据非常复杂,因此,很难达到很高的准确性。很难处理 数据不平衡的问题。 3、介绍下决策树算法常见的决策树算法有三种:ID3、C4.5、CART 树 ID3 算法的核心是在决策树的每个节点上应用信息增益准则选择特征,递归地构架决策树。C4.5 算法的核心是在生成过程中用信息增益比来选择特征。 CART 树算法的核心是在生成过程中用基尼指数来选择特征。4、用通俗的语言介绍下强化学习(Reinforcement Learning)

    可以看出
    第一个检索结果和问题是相关的
    第二个检索结果和问题是完全没关系的
    而第三个检索结果的最后一句话是和问题相关的
  3. 最终,chatglm2基于知识库给的答案如下:

    可以看出,LLM并没有完全根据文档内容来回答,而是基于自己的知识进行了相应回答,而对于回答的第三段话,强化学习算法主要有三种:ID3、C4.5和CART树。可以看出,这段话的表达是完全错误的

2.1.2 针对「生成式模型和判别式模型的区别并举一些例子」检索到的全是相关的

再看一个例子,即提问:生成式模型和判别式模型的区别并举一些例子

  1. 其在文档(知识库)中的答案如下

  2. 系统检索到的结果如下,很明显,三个检索结果都精准匹配到了问题

  3. 但,系统最终实际生成的答案如下(下图左侧是chatglm2-6b,下图右侧是chatglm3-6b)

    相当于即便在上步骤中,系统检索到的三个结果的内容都是和问题相关的,但大模型还是根据自己的知识进行了回答

2.2 LLM不按照知识库回答的优化方法

  • 优先使用最新的6B/7B模型:ChatGLM3-6B、Baichuan2-7B、Qwen-7B

    当然,即便有的模型换成到了能力更强的最新版,也不一定听话(依然不严格按照知识库中的回答),例如“2.1.1 针对「用通俗的语言介绍下强化学习?」”中,把chatglm2替换成最新的chatglm3,也未完全严格按照文档中的答案来回答(但GLM3这个结果相比GLM2的结果 至少是进步了,没有出现毫不相干的决策树之类的内容)

    所以,如果资源可以支持48G以上的显卡,可以考虑使用Qwen-14B-Chat 或 Baichuan-13B-Chat,13B的模型通常好于6B/7B模型
  • 优化prompt,可能会有一定效果的。但由于随机性,结果并不能得到保证
  • PDF文档解析优化方案,下文详述

第三部分 结构化文档与非结构化文档的典型问题:如何更好分割

3.1 如何针对结构化文档采取更好的chunk分割:基于规则

3.1.1 先解析PDF,然后分别获取文本内容和图片内容,最后拼接文本内容和图片内容

Langchian-Chatchat中对于不同类型的文件提供了不同的处理方式,从项目server/knoledge_base/utils.py文件中可以看到对于不同类型文件的加载方式,大体有HTML,Markdown,json,PDF,图片及其他类型等

LOADER_DICT = {"UnstructuredHTMLLoader": ['.html'],"UnstructuredMarkdownLoader": ['.md'],"CustomJSONLoader": [".json"],"CSVLoader": [".csv"],# "FilteredCSVLoader": [".csv"], # 需要自己指定,目前还没有支持"RapidOCRPDFLoader": [".pdf"],"RapidOCRLoader": ['.png', '.jpg', '.jpeg', '.bmp'],"UnstructuredFileLoader": ['.eml', '.msg', '.rst','.rtf', '.txt', '.xml','.docx', '.epub', '.odt','.ppt', '.pptx', '.tsv'],}

这里,我们重点关注PDF文件的解析方式,并探究其可能的优化方案

从上面的文件加载字典中可以看出,PDF文件使用的加载器为RapidOCRPDFLoader,该文件的方法在项目document_loaders/mypdfloader.py中

处理方法:

  1. 首先使用fitz(即pyMuPDF)的open方法解析PDF文件;
  2. 对于每一页的文本内容,通过get_text方法进行获取,而对于图片内容通过get_images方法进行获取,获取后通过RapidOCR对图片中的文本内容进行提取;
  3. 最后将从图片中提取的文本和原始的文本内容进行拼接,得到最终的所有文本内容。然后进行下一步的分词和文本切割。

这种方式的优点简单粗暴,基本上对于任何排版的PDF文件都能够提取到有效信息。但缺点也很明显,就是无差别,比如我们的文档本身就有较好结构,提取出来的内容也无法将结构反映出来。所以,通常情况下需要根据文档的具体情况对解析后的文档做进一步定制化处理

3.1.2 针对结构化文档本身的特点:针对性分割

3.1.2.1 七月在线大厂面试题PDF文档特点

以七月在线大厂面试题PDF文档为例,有以下特点:

  1. 文档具有书签,可以直接根据书签对应到具体的页码
  2. 文档结构不复杂,共有两级标题,一级标题表示一个大的章节,二级标题表示面试题的问题,文本内容为每道面试题对应的答案;
  3. 每道面试题是独立的,和其前后的面试题并没有明显的相关性。
  4. 面试题题目的长度长短不一,短的有几个词组成,长的基本一句话
  5. 文档中除中文外,还有大量模型或算法英文词,且文档中包含部分公式和代码

因此,可以考虑根据文档的标题进行分割,即将文档中的标题和标题对应的内容分为一块,在放入向量库的时候可以尝试两种方式

  • 一种是只将题目进行向量化表示存入向量库
  • 另一种是将题目和答案一起进行向量化表示存入向量库
3.1.2.2 PDF文档解析可选方案

对此,尝试了几种PDF解析工具包:pdfplumber、PyPDF2、fitz(PyMuPDF)

  • 通过fitz获取书签信息,得到面试题题目与其所在的页码,保存为一个字典;
  • 尝试用pdfplumber、PyPDF2、fitz抽取每一页的文本信息,与字典中的标题进行匹配(使用find方法)
  • 通过面试题当前位置和下一个面试题位置(这里的位置指的是索引),对面试题进行分块;
  • 最后,输出面试题与其对应的答案
3.1.2.3 PDF文档解析存在问题

文档解析过程中存在的问题:

  1. 书签中的标题内容和文档中的标题内容并不完全一致,这种情况可能是解析后出现多余的空格导致的
  2. 需要考虑一道面试题可能存在跨页的情况,一般是会出现一道面试题出现在两页的情况,但也需要考虑一道面试跨三页或多页的情况
  3. 由于一级标题是有分页符的,每个一级标题会另起一页,因此在处理时也需要考虑此种情况。
  4. 解析的文本中带有页脚,如:第 4 页 共 46 页,由于页脚的内容对面试题是没有意义的,因此也需要考虑去掉
3.1.2.4 PDF文档解析解决方案

解决方案:

  1. 对于书签中的标题内容和文档中的标题内容并不完全一致的问题
    \rightarrow  一种方式有考虑去除文档中标题的空格,实现困难在于无法精确定位,如果全去掉就会出现一些英文单词拼接在一块的情况,可能对语义或后续的检索产生影响
    \rightarrow  一种方式是不去除,如果出现这种情况,则将标题所在页的信息都提取出来;
  2. 对于一道面试题可能存在跨页的情况,可以通过设置起始页和终止页,对相邻标题(主要是下一个标题)所在页进行判断的方式来处理;
  3. 对于每个一级标题会另起一页的情况,可以通过添加对特殊字符“1、”判断的方式来处理;
  4. 对于页脚,可以使用正则表达式进行匹配去除
3.1.2.5 结果分析

测试效果:
以2022Q2大厂面试题共92题(含答案及解析).pdf文件为例,共92道面试题,匹配不到的数量

  • pdfplumber:30
  • PyPDF2:20(解析过程中,英文词之间的空格会消失,如selfattention)
  • fitz:35

这个结果说明,即便根据文档的标题进行分割(将文档中的标题和标题对应的内容分为一块),最终匹配率也不算高,因为92个问题,各个解析器下来,依然都20 30多个匹配不到,但如果不按照标题分割的话,就会出现那种比如一段文本中只有部分内容而不完整的情况

接下来,咱们来看下语义分割的方案

3.2 如何解决非结构化文档分割不够准确的问题:比如最好按照语义切分

// 待更

第四部分 让召回结果更全面、准确,及基于表格的问答

4.1 如何确保召回结果的全面性与准确性:多路召回与最后的去重/精排

// 待更

4.2 如何解决基于文档中表格的问答

// 待更

参考文献与推荐阅读

  1. 我司第三项目组带头人朝阳的笔记:基于Langchain-Chatchat的知识库问答系统

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/589734.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

pytorch深度学习笔记(共计169页,基于本人听完B站小土堆PyTorch深度学习快速入门教程所写)

一、笔记视频 pytorch深度学习(共计169页,基于本人听完B站小土堆PyTorch深度学习快速入门教程所写) 二、获取方式 方式一: 点击下面的链接 pytorch深度学习笔记 如果链接无法打开 直接复制下方链接即可 https://mall.bilibili.c…

如何借助边缘网关打造智慧配电房安全方案

配电房是电力系统的重要组成部分,通常设置有各种高压配电装置和箱柜,是企业安全管理的重点。传统的人工巡检和监控总是难以避免疏漏,导致风险隐患的产生和扩大。 随着物联网、边缘计算、设备联动控制等技术的普及应用,佰马针对配电…

在FC中手工创建虚拟机模板

1、Linux去除个性化信息 (1)编辑网卡配置文件,只保留以下内容(以RHEL 7为例) (2)清除主机密钥信息(开机会自动生成) (3)清除Machine ID&#xff…

机器学习概述

最近在学习机器学习的基础知识,在此记录一下 目前最火的机器学习框架是Scikit-Learn和pytorch,因此,之后的一段时间会使用这两种框架搭建机器学习的模型,相应的学习资源也会开源,希望可以学习到很多知识。 简单介绍机…

Servlet见解3

13 Cookie和Session http协议是一个无状态的协议,你每一个跳转到下一个页面的时候都是需要先登录才能使用,这样就很麻烦比如淘宝,没有cookie和session的话,用户在首页已经登录上去了,但是需要再次登录才能选择商品&am…

使用pyqt5+qtdesign设计模仿网易云音乐客户端界面

案例效果图 设计界面效果图: 运行效果图: 本项目目前只是对界面进行了设计,功能都没有进行完善,想完善的小伙伴自己拿到UI文件之后,自己完善即可。 简要设计思路说明 使用QFrame将界面分割布局成如下几个部分&am…

buuctf-Misc 题目解答分解103-105

103.[GKCTF 2021]签到 追踪流发现类似flag 字符 f14g 下面有大量的是16进制字符 64306c455357644251306c6e51554e4a5a3046355355737764306c7154586c4a616b31355357704e65556c7154586c4a616b31355357704e65556c7154586c4a616b31355357704e65556c7154586c4a616b31355357704e655…

学习动态规划解决不同路径、最小路径和、打家劫舍、打家劫舍iii

学习动态规划|不同路径、最小路径和、打家劫舍、打家劫舍iii 62 不同路径 动态规划,dp[i][j]表示从左上角到(i,j)的路径数量dp[i][j] dp[i-1][j] dp[i][j-1] import java.util.Arrays;/*** 路径数量* 动态规划,dp[i][j]表示从左上角到(i,j)的路径数量…

归并算法排序

目录 归并排序 逆序对的数量 归并排序 题目如下: 给定你一个长度为 n 的整数数列。 请你使用归并排序对这个数列按照从小到大进行排序。 并将排好序的数列按顺序输出。 输入格式: 输入共两行,第一行包含整数 n。 第二行包含 n 个整数&…

基于Java SSM框架实现智能仓储管理系统项目【项目源码+论文说明】

基于java的SSM框架实现仓库管理系统演示 摘要 随着科学技术的飞速发展,社会的方方面面、各行各业都在努力与现代的先进技术接轨,通过科技手段来提高自身的优势,智能仓储系统当然也不能排除在外。智能仓储系统是以实际运用为开发背景&#xf…

ThinkPad产品如何升级BIOS程序

操作步骤: 重要提示: 更新BIOS存在风险!如果您的电脑在此过程中出现死机,系统崩溃或断电,则BIOS或UEFI固件程序可能会损坏,这将使您的电脑无法启动。 由于BIOS的版本或者在升级过程中出错,可能会造成不可…

移动客服系统必备功能:提升用户体验与工作效率的关键要素

在快速发展的时代,工作的节奏也越来越快,也许您正在高铁上或者正在午餐时,就有客户提出需求来。所以,移动客服系统的需求也越来越多,那么移动客服系统怎么样?接下来,我们一起来看看移动客服系统…

python-39-flask+nginx+Gunicorn的组合应用

flask nginx Gunicorn 王炸 1 flasknginxgunicornsupervisor 1.1 myapp.py from flask import Flask app Flask(__name__)app.route("/") def test_link():return "the link is very good"if __name__"__main__":app.run()默认是5000端口…

CSS去掉按钮阴影 | css去掉按钮边框 | 注意改变搜索的关键词、搜索方式

上图是在谷歌浏览器中运行的结果 button {box-shadow: none;height: 50px;width: 100px;background-color: white;border-color: white; }写了以上的css,发现按钮还是有阴影一样的东西,查阅网络资料的时候也一直在搜索“如何去掉按钮阴影”,…

Linux调试工具—gdb

🎬慕斯主页:修仙—别有洞天 ♈️今日夜电波:HEART BEAT—YOASOBI 2:20━━━━━━️💟──────── 5:35 🔄 ◀️ ⏸ ▶️ ☰ …

【Delphi】IOS上架踩坑记 - 2024年第一天

目录 一、前言: 二、IOS程序上架网址 三、踩坑记 1. 关于版本中的 CFBundleIdentifier 参数(Transporter 提示) 2. IOS APP 程序图标要求(Transporter 提示) 3. 关于版本中的 CFBundleShortVersionString 参数&a…

收入支出记录,对需要的账目明细进行颜色标记

面对繁杂的账单和财务数据,你是否曾为记账而感到苦恼?别担心,我们为你带来了一款全新的记账软件——晨曦记账本,这不仅仅是一个简单的记账工具,更是你财务管理的得力助手。 所需工具: 一个【晨曦记账本】…

【C++】Windows编译FileZilla Client

按照Compiling FileZilla 3 under Windows - FileZilla Wiki (filezilla-project.org)操作即可。 1.下载安装MSYS2 msys2-x86_64-20220118.exe 2.更新MSYS2 进入MSYS2 MinGW 64-bit shell,运行 pacman -Syu重复退出shell,更新MSYS2。直到没有可更新…

java servlet软件缺陷库管理系统Myeclipse开发mysql数据库web结构java编程计算机网页项目

一、源码特点 java servlet软件缺陷库管理系统是一套完善的java web信息管理系统 系统采用serlvetdaobean(mvc模式),对理解JSP java编程开发语言有帮助,系统具有完整的源代码和数据库,系统主要采用B/S模式开发。开发环境为TOM…

docker小白第十天

redis集群主从容错切换案例 3主3从的redis集群,某个主机宕机了,需要对应的从机补位。 docker exec -it redis-node-1 /bin/bash # 进入容器1的命令行 redis-cli -p 6381 # 进入节点1的命令行 cluster nodes # 查看集群信息可以看到1号和6号对应是主从关…