搭建过程:
(1)文档加载,并按一定条件切割成片段
(2)将切割的文本片段灌入检索引擎
(3)封装检索接口
(4)构建调用流程: Query -> 检索 -> Prompt -> LLM ->回复
模型训练做分词
(1)预训练Embedding:将单词映射到一个数值向量,语义相近的单词在向量空间上会有相似的位置
(2)参数设置:对于预训练向量的Embedding,一般期望它的参数不再变动,所以要设置trainable=False ,如果希望在此值基础上训练参数,需要设置 trainable= True