大模型知识问答: 文本分块要点总结

节前，我们组织了一场算法岗技术&面试讨论会，邀请了一些互联网大厂朋友、今年参加社招和校招面试的同学。

针对大模型技术趋势、算法项目落地经验分享、新手如何入门算法岗、该如何准备面试攻略、面试常考点等热门话题进行了深入的讨论。

总结链接如下：

《大模型面试宝典》(2024版) 发布！

本文介绍LLM知识问答中文本分块的相关内容。

一、字符切分

Langchain的CharacterTextSplitter，直接按给定的chunk_size（块内最大字符数量）去生硬切分文本块，不考虑文本结构，为了保证文本块之间的上下文联系，基于chunk_overlap（块重叠字符数量）去控制文本块之间的重叠字数，注意，在英文里是按字母数考虑字符数量。当然，也能设置分隔符separator去分割。

图：字符切分

二、句子切分

Llama_index的SentenceSplitter，针对句子层面切分文本块，并且还提供父子节点关系。

三、递归字符切分

Langchain的RecursiveCharacterTextSplitter，默认分割符：[“\n\n”, “\n”, " ", “”]（分别代表段落分隔符、换行符、空格、字符），拆分器首先查找两个换行符（段落分隔符）。一旦段落被分割，它就会查看块的大小，如果块太大，那么它会被下一个分隔符分割。如果块仍然太大，那么它将移动到下一个块上，以此类推。因为某些书写系统没有单词边界，例如中文、日语和泰语等，所以可以增加以下分隔符：[‘\n\n’, ‘\n’, ’ ', ‘.’, ‘,’, ‘\u200b’, ‘，’, ‘、’, ‘．’, ‘。’, ‘’]。

图：递归字符切分

四、按文件风格切分

除了简单的平文本文档，对于其他不同格式的文件（比如HTML, Markdown, PDF等），采用不同的方式切分。比如：

- Markdown： 可以按照#来判断标题级别进行切分，也可以标题块下叠加字符切块；

- Python等代码文件： 可以按照class、def等切分出不同块；

- PDF： 用Unstructured库解析PDF文件，除文本外，表格也能很好抽取出来，由于表格向量化不具备较好的语义信息，一般开发者会将抽取出的表格先做总结，将表格总结向量化加入检索池中，若检索到该表格，则将原始表格喂入LLM内。

- 图片： 有好多做法，比如如果图片具有文本信息，可以直接OCR识别后的文字作为该图片的文本块。如果该图片不具备文本信息，可以用多模态大模型对图片生成图片描述或总结，当然也能用图片embedding，如CLIP。这里不太属于文本分块的讨论范畴，后面会再做分享；

- HTML： 按元素级别拆分文本，并给每个文本块添加元素级别的元数据，能将具有相同元数据的元素组合再一起。

五、语义切分

1、基于Embedding

Langchain的SemanticChunker，由Greg Kamradt提出[1]，有2种方式：

（1）具有位置奖励的层次聚类： Greg想看句子嵌入的层次聚类会如何。但由于发现他选择按句子进行拆分时，有时会在长句子之后出现短小句子。这些尾随的短小句子可能可以改变一个块的含义，所以他添加了一个位置奖励，如果它们是彼此相邻的句子，则更有可能形成聚类。最终结果还不错，但调整参数很慢且不理想；

（2）在连续句子之间找到语义断点： 这是一种遍历方法。先从第一个句子开始，得到向量，然后将其与句子2进行比较，然后比较2和3等等。如果出现向量距离大的断点，如果它高于阈值，那么认为它是一个新语义部分的开始。最初Greg尝试对每个句子进行向量化，但结果发现噪音太大。所以最终选取了3个句子的组（一个窗口），然后得到一个嵌入，然后删除第一个句子，并添加下一个句子。这样效果会好一点。

作者推崇的第二种办法，我总结其主要步骤如下：

1）按分隔符切分出句子sentence；

2）对每个句子，把其前后的句子一起合并成一个窗口的句子组合（即上下文关联，单个句子扩充至3个句子combined_sentence）；

3）将combined_sentence向量化，得到combined_sentence_embedding；

4）计算位置i和位置i+1之间的combined_sentence_embedding的余弦距离distance_to_next，

5）根据余弦距离的分布设置分割阈值，获取断点；

6）基于断点合并句子进文本块中。

图：基于embedding的语义切分

但实际使用还是小心，因为阈值设置不当，容易发送块内字数过多的问题，对后续LLM检索和回答很不利，建议可以根据文档字数，计算number_of_chunks，然后用此参数去调整语义断点的阈值。

2、基于模型

可以用下一句预测（Next Sentence Prediction, NSP）二分类任务的BERT模型，输入前后两个句子，预测句子彼此之间相邻的可能性，若分数低于阈值，说明语义不太相关，可以分割。我们也知道BERT的预训练目标就是MLM（掩码语言建模）和NSP（下一句预测），其中NSP是用[CLS]做二分类预测，所以我们可以直接调用Google的BERT模型 [4]完成基于模型的语义切分方案。

关于利用BERT做文本分割（Text Segmentation）还有很多其他研究，比如：

（1）2020年Google Research提出的《Text segmentation by cross segment attention》：用BERT获取句子表征，然后再输入BiLSTM或Transformer预测每个句子是否为分割边界；

图：《Text segmentation by cross segment attention》

（2）2021年阿里语音实验室在提出的SeqModel模型《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》： 如下图所示，先分句，然后对句子分词，获取token、segment、position embedding后做element-wise求和，再加上发音embedding后喂入BERT编码器，对输出做平均池化，接入softmax输出分类判断每个句子是否为段落边界。为什么加入发音embedding？因为该模型提出的出发点是解决对长会议ASR生成的文本缺乏段落结构的问题。像ASR会出现写转写错误，比如发音相似但含义不同的声学混淆词等。所以把字的发音信息（通过中文发音表查）来增强文本分割模型输入的表征向量（即phone embedding）。

同时，提出了自适应滑窗提升推理速度，就是基于模型预测的段落分割点，去滑动窗口，如下图所示。

图：《Sequence Model with Self-Adaptive Sliding Window for Efficient Spoken Document Segmentation》

以上阿里的SeqModel开源了，我用过SeqModel，说实话一些细节上的体验不是很好，比如带小数点的数字会被误切分。

六、Agent 式切分

我用可以尝试使用LLM做语义切分，其中被讨论最多是腾讯AI Lab在2023年提出的Propositionizer [2]，它好处在于能解决文本中指代消解的问题，比如"it", “he”, “she”, “they”, “this”, "that”指代的实体全称是什么，而且分解成比句子还更细粒度且信息稠密的命题（Proposition），加入文本分块。效果如下图所示：

图：在Wikipedia文本上，三种不同细粒度的检索单元（其中，a）段落块不超过100个字，句子by句子的添加进段落块，确保句子不被强行字符分割，最后一个块少于50字，会和历史句子合并，避免过于小的段落块。b）句子块用Python的SpacCy en_core_web_lg模型做分句，c）命题块则使用Propositionizer模型）

作者实现Propositionizer的步骤如下：

1）从英文Wikipedia拉取2021-10-13至今的数据；

2）对GPT-4做指令微调（Proposition定义和1-shot展示），将段落块作为输入，要求LLM输出一系列命题；

3）将获取并过滤后的4.3万对”段落-to-命题“，作为种子集微调Flan-T5-large模型。

可惜的是，开源的Propositionizer受限于训练语料，仅支持英文。

七、其他文本块优化点

在实践中，我们常发现一些问题，比如：

（1）上下文的关联信息跨度大或信息稀疏，导致文本块内信息密度低。 举例：聊天记录，或某文章分点记录各内容时，用户向该文章提问有哪些分点内容或层次结构。

（2）标题信息过短，导致文本块向量化后，标题语义信息被文本块内其他内容给模糊了。 具体：某文本块内包含标题5个字，标题下内容有300字。

（3）用户提问内容涉及跨多个文件做检索和整合回答时，大多数文本分块方法不具备跨文件关联。

为了解决以上问题，也有对应一些优化手段。

1、摘要增强

用较大chunk_size去字符切分文本，然后对大文本块用LLM做总结，作为摘要块加入向量数据库中。能在一定程度解决前面提到的问题1。

2、标题增强

将标题下的相应文本块，都加入标题前缀，并且重复多几次标题。如：block = concat(’#’.join([title]*3), content_under_title)。能解决前面提到的问题2。

3、假设性问题生成

基于给定的文本块，生成假设性问题，将生成的问题和对应文本块加入检索内容中。Langchain有个Hypothetical Queries方法[3]可调用。能解决前面提到问题1中的聊天记录场景下的信息稀疏问题。其实说直白了，不就是QA对的生成吗？往往好的QA对比文本块更容易被检索到。想要往这方面深入扩展，可以参考Ragas的TestsetGenerator（一套用LLM生成QA的Prompts工程）。

4、父文档检索器

其实父文档检索器简单理解是利用不同chunk_size去分块，先将原始文档拆分成较大块，再对较大块拆分成较小块，然后对较小块进行索引向量检索，最后返回的是相似度高的较小块下的父文本较大块。这样的好处是：较小块语义含义更精准，其父文本块又能保留到足够长的上下文信息。能解决前面提到的问题1。Langchain有ParentDocumentRetriever，llama_index有HierarchicalNodeParser。

5、知识图谱

如果你的数据具有丰富的实体和实体间的关系，建议转换成知识图谱。如果不想手动整理图谱，可以用Langchain的LLMGraphTransformer，利用LLM解析和分类文本中的实体和实体间的关系。能解决前面提到的问题3。

参考资料

[1] 5_Levels_Of_Text_Splitting - Greg Kamradt, 代码：https://github.com/FullStackRetrieval-com/RetrievalTutorials/blob/main/tutorials/LevelsOfTextSplitting/5_Levels_Of_Text_Splitting.ipynb

[2] Dense X Retrieval: What Retrieval Granularity Should We Use? 论文: [2312.06648] Dense X Retrieval: What Retrieval Granularity Should We Use? (arxiv.org)，代码：https://github.com/chentong0/factoid-wiki

[3] Hypothetical Queries, 文档：MultiVector Retriever | 🦜️🔗 LangChain

[4] Bert - Google, 代码：google-bert/bert-base-uncased ·拥抱脸 (huggingface.co)