大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办

大模型SFT用chat版还是base版 SFT后灾难性遗忘怎么办

bicheng/2025/4/19 8:56:20/文章来源:https://blog.csdn.net/taoqick/article/details/147169702

大模型SFT用chat版还是base版

进行 SFT 时，基座模型选用 Chat 还是 Base 模型？

选 Base 还是 Chat 模型，首先先熟悉 Base 和 Chat 是两种不同的大模型，它们在训练数据、应用场景和模型特性上有所区别。

在训练数据方面，Base 模型是基于海量语料库进行的无监督学习。它从大量文本中学习语言模式和知识，而不需要人工标注或监督。

相比之下，Chat 模型则是在指令微调的有监督学习下进行训练的。这意味着它使用人工标注的数据集进行训练，以便更好地理解和响应特定指令。

在应用场景上，Base 模型主要用于无监督学习任务，如文本分类、情感分析、摘要生成等。这些任务主要关注文本内容的理解和处理，而不需要对特定指令做出响应。

相反，Chat 模型则主要用于指令学习任务，如问答系统、对话生成、智能客服等。在这些任务中，模型需要理解和响应人类的指令，以提供准确和有用的信息。

在模型特性上，Base 模型预训练之后没有做任何调整。它提供了基本的语言理解和生成能力，但可能需要针对特定任务进行微调或优化。

而 Chat 模型则是在 Base 模型上进行微调的版本，它通过指令微调和人工反馈强化学习等方法，使模型更加符合人类的价值观和指令要求。

另一种说法是 base 模型可以更方便做知识注入，而 chat 版本是做过对其的，不好做知识注入。

所以基于 base 的 SFT 可以做的上限更高，更方便做知识的注入，而基于 chat 模型的 SFT 是做的样式学习或者指令学习。

但是 base 也存在没有对其的风险，输出可能和希望有差距，需要更多的调优和对齐。

SFT后灾难性遗忘怎么办

1. 更改模型结构和参数高效微调（PEFT）

通过部分参数调整保留预训练知识，降低对原始模型权重的破坏：

LoRA：通过低秩矩阵更新权重，仅训练少量新增参数，保留大部分预训练参数。
Adapter-Tuning：在模型各层插入小型适配器模块，仅训练适配器参数。
LoRAMoE：结合混合专家（MoE）与LoRA，将专家分为两组，分别处理通用知识和新任务，通过路由机制动态分配权重，减少参数冲突。
弹性权重固化（EWC,Elastic Weight Consolidation）：通过引⼊正则化项，限制模型参数的变动范围，以保护之前学习到的知识。这种⽅法可以在微调过程中平衡新任务和旧任务之间的重要性

2. 数据策略优化

调整训练数据的分布和结构以平衡新旧知识：

混合通用数据：在SFT数据中保留一定比例的通用任务数据（如对话、问答），防止模型过度偏向特定领域。
多任务联合训练：同时微调多个任务（如翻译、摘要、推理），增强模型的泛化能力。
数据重放（Replay）：定期将通用数据重新输入模型进行训练，类似“知识复习”。

3. 训练方式

通过架构设计缓解遗忘：

SDFT（自我蒸馏）：利用原始模型对任务数据生成回复，构建自我蒸馏数据集，使任务数据分布更接近原始模型，减少分布偏移。
渐进式训练：分阶段微调，先训练适配层，再逐步解冻部分预训练层，避免一次性全参数更新。

参考文档

SFT索命14问，给跪了
⼤模型（LLMs）基础

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/bicheng/76616.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

【图像生成之21】融合了Transformer与Diffusion，Meta新作Transfusion实现图像与语言大一统

【图像生成之21】融合了Transformer与Diffusion，Meta新作Transfusion实现图像与语言大一统

论文：Transfusion: Predict the Next Token and Diffuse Images with One Multi-Modal Model 地址：https://arxiv.org/abs/2408.11039 类型：理解与生成 Transfusion模型‌是一种将Transformer和Diffusion模型融合的多模态模型，旨…

阅读更多...

动态多目标进化算法：基于知识转移和维护功能的动态多目标进化算法（KTM-DMOEA）求解CEC2018（DF1-DF14）

动态多目标进化算法：基于知识转移和维护功能的动态多目标进化算法（KTM-DMOEA）求解CEC2018（DF1-DF14）

一、KTM-DMOEA介绍在实际工程和现实生活中，许多优化问题具有动态性和多目标性，即目标函数会随着环境的变化而改变，并且存在多个相互冲突的目标。传统的多目标进化算法在处理这类动态问题时面临着一些挑战，如收敛速度慢、难以跟踪…

阅读更多...

部署NFS版StorageClass(存储类)

部署NFS版StorageClass(存储类)

部署NFS版StorageClass存储类 NFS版PV动态供给StorageClass(存储类)基于NFS实现动态供应下载NFS存储类资源清单部署NFS服务器为StorageClass(存储类)创建所需的RBAC部署nfs-client-provisioner的deployment创建StorageClass使用存储类创建PVC NFS版PV动态供给StorageClass(存储…

阅读更多...

Vue使用el-table给每一行数据上面增加一行自定义合并行

Vue使用el-table给每一行数据上面增加一行自定义合并行

// template <template><el-table:data"flattenedData":span-method"objectSpanMethod"borderclass"custom-header-table"style"width: 100%"ref"myTable":height"60vh">&l…

阅读更多...

vue项目使用html2canvas和jspdf将页面导出成PDF文件

vue项目使用html2canvas和jspdf将页面导出成PDF文件

一、需求： 页面上某一部分内容需要生成pdf并下载二、技术方案： 使用html2canvas和jsPDF插件三、js代码 // 页面导出为pdf格式 import html2Canvas from "html2canvas"; import jsPDF from "jspdf"; import { uploadImg } f…

阅读更多...

大模型LLM表格报表分析：markitdown文件转markdown，大模型markdown统计分析

大模型LLM表格报表分析：markitdown文件转markdown，大模型markdown统计分析

整体流程：用markitdown工具文件转markdown，然后大模型markdown统计分析 markitdown https://github.com/microsoft/markitdown 在线体验：https://huggingface.co/spaces/AlirezaF138/Markitdown 安装： pip install markitdown…

阅读更多...

Linux 第二讲 --- 基础指令（二）

Linux 第二讲 --- 基础指令（二）

前言这是基础指令的第二部分，但是该部分的讲解会大量使用到基础指令（一）的内容，为了大家的观感，如果对Linux的一些基本指令不了解的话，可以先看基础指令（一），同样的本文…

阅读更多...

python格式化字符串漏洞

python格式化字符串漏洞

什么是python格式化字符串漏洞 python中，存在几种格式化字符串的方式，然而当我们使用的方式不正确的时候，即格式化的字符串能够被我们控制时，就会导致一些严重的问题，比如获取敏感信息 python常见的格式化字符串百…

阅读更多...

LLaMA-Factory双卡4090微调DeepSeek-R1-Distill-Qwen-14B医学领域

LLaMA-Factory双卡4090微调DeepSeek-R1-Distill-Qwen-14B医学领域

unsloth单卡4090微调DeepSeek-R1-Distill-Qwen-14B医学领域后，跑通一下多卡微调。 1，准备2卡RTX 4090 2，准备数据集医学领域 pip install -U huggingface_hub export HF_ENDPOINThttps://hf-mirror.com huggingface-cli download --resum…

阅读更多...

React Hooks: useRef，useCallback，useMemo用法详解

React Hooks: useRef，useCallback，useMemo用法详解

1. useRef（保存引用值） useRef 通常用于保存“不会参与 UI 渲染，但生命周期要长”的对象引用，比如获取 DOM、保存定时器 ID、WebSocket等。新建useRef.js组件，写入代码： import React, { useRef, useSt…

阅读更多...

Spring AI 结构化输出详解

Spring AI 结构化输出详解

一、Spring AI 结构化输出的定义与核心概念 Spring AI 提供了一种强大的功能，允许开发者将大型语言模型（LLM）的输出从字符串转换为结构化格式，如 JSON、XML 或 Java 对象。这种结构化输出能力对于依赖可靠解析输出值的下游应用程…

阅读更多...

THM Billing

THM Billing

1. 信息收集 (1) Nmap 扫描 bashnmap -T4 -sC -sV -p- 10.10.189.216 输出关键信息： PORT STATE SERVICE VERSION22/tcp open ssh OpenSSH 8.4p1 Debian 5deb11u380/tcp open http Apache 2.4.56 (Debian) # MagnusBilling 应用3306/tcp open …

阅读更多...

布局决定终局：基于开源AI大模型、AI智能名片与S2B2C商城小程序的战略反推思维

布局决定终局：基于开源AI大模型、AI智能名片与S2B2C商城小程序的战略反推思维

摘要：在商业竞争日益激烈的当下，布局与终局预判成为企业成功的关键要素。本文探讨了布局与终局预判的智慧性，强调其虽无法做到百分之百准确，但能显著提升思考能力。终局思维作为重要战略工具，并非一步到位的战略部署&a…

阅读更多...

贪心算法 day08（加油站+单调递增的数字+坏了的计算机）

贪心算法 day08（加油站+单调递增的数字+坏了的计算机）

目录 1.加油站 2.单调递增的数字 3.坏了的计算器 1.加油站链接：. - 力扣（LeetCode） 思路： gas[index] - cost[index]，ret 表示的是在i位置开始循环时剩余的油量 a到达的最大路径假设是f那么我们可以得出 a b …

阅读更多...

【技术派部署篇】云服务器部署技术派

【技术派部署篇】云服务器部署技术派

1 环境搭建 1.1 JDK安装 # ubuntu sudo apt update # 更新apt apt install openjdk-8-jdk # 安装JDK安装完毕之后，执行 java -version 命令进行验证： 1.2 Maven安装 cd ~ mkdir soft cd soft wget https://dlcdn.apache.org/maven/maven-3/3.8.8/bina…

阅读更多...

Linux:35.其他IPC和IPC原理+信号量入门

Linux:35.其他IPC和IPC原理+信号量入门

通过命名管道队共享内存的数据发送进行保护的bug： 命名管道挂掉后，进程也挂掉了。 6.systemV消息队列原理:进程间IPC:原理->看到同一份资源->维护成为一个队列。过程： 进程A,进程B进行通信。让操作系统提供一个队列结构，…

阅读更多...

【数据结构】红黑树超详解 ---一篇通关红黑树原理（含源码解析+动态构建红黑树）

【数据结构】红黑树超详解 ---一篇通关红黑树原理（含源码解析+动态构建红黑树）

一.什么是红黑树红黑树是一种自平衡的二叉查找树，是计算机科学中用到的一种数据结构。1972年出现，最初被称为平衡二叉B树。1978年更名为“红黑树”。是一种特殊的二叉查找树，红黑树的每一个节点上都有存储表示节点的颜色。每一个节点可以是…

阅读更多...

2024年第十五届蓝桥杯CC++大学A组--成绩统计

2024年第十五届蓝桥杯CC++大学A组--成绩统计

2024年第十五届蓝桥杯C&C大学A组--成绩统计题目： 动态规划， 对于该题，考虑动态规划解法，先取前k个人的成绩计算其方差，并将成绩记录在数组中，记录当前均值，设小蓝已检查前i-1个人的成绩&…

阅读更多...

vue2使用ezuikit-js播放萤石视频

vue2使用ezuikit-js播放萤石视频

需求：需要在大屏上播放萤石视频，用到官方的ezuikit-js插件实现，并实现视频播放切换功能。有个问题至今没有解决，就是萤石视频的宽高是固定的，不会根据大屏缩放进行自适应。我这边做了简单的刷新自适应。 1.下载ezuikit…

阅读更多...

爱普生TG-5510CA和TG-5510CB晶振成为服务器中的理想之选

爱普生TG-5510CA和TG-5510CB晶振成为服务器中的理想之选

在数字化时代，服务器作为数据存储、处理与传输的核心枢纽，其性能的优劣直接影响着整个信息系统的运行效率与稳定性。从企业内部的数据中心到云计算服务提供商的大规模集群，服务器需要应对海量数据的高速处理与频繁交互。而在服务器复杂精密的…

阅读更多...

最新文章