从词表到RLHF一镜到底训练一个大模型

从词表到RLHF一镜到底训练一个大模型

news/2025/10/31 14:01:35/文章来源:https://blog.csdn.net/kingsoftcloud/article/details/137224845

第6章如何训练大语言模型

本章节主要探讨训练大语言模型的步骤和方法论。

目前，可能大家接触的最多的模型训练方式是微调，也能收到一定程度的比较好的效果，其中有代表性的项目有Github上的Alpaca, Baize,Vicuna等。

6.1 Pretrain 预训练

有了微调，为什么还需要预训练，直接拿一些成熟的模型来微调不能满足吗？

答案其实和大多数人的理解不同，绝大多数下游任务是无法通过微调来解决的，微调成功的前提的是

被微调模型的训练语料包括训练任务的种类本身和要微调的任务差距不大，最重要的是训练语料，要求预训练模型里面包含了微调训练所需要的知识。

日常的生产环境中，我们碰到的大多数问题有以下几种情况：

1-语言的不匹配，比如预训练模型是英文，微调任务是中文。

2-特定领域的专业词汇，比如医疗，生物，金融领域，这些泛知识领域或者互联网上的训练语料无法涵盖的部分。

当一个训练任务无法解决上述的问题，那么应该从预训练Pretrain开始对模型进行训练。

Pretrain实际上也分为若干个步骤。

和微调一样，我们一般会选择一个预训练的基座模型，这个模型可以是Llama，可以是ChatGLM或者任何的开源模型，当然也可以是一个自己编辑网络架构的模型。

如果使用开源的模型比如Llama，它算是一个相对优秀的语言模型，但是它的中文表达能力，确实受到诟病，和Llama一样，大多数市面上被认可的优秀语言模型，都没有对中文部分进行充分的预训练。

6.1.1扩充词表

除了没有充分的预训练以外，第二个问题，就是词表的问题。目前的开源模型词表构成主要是由英文构成的。中文的部分几乎每一个都不是特别的完善，所以大多在预训练之前都需要进行词表的扩充，也就是扩充tokenizer的文件。

一般在如图6-1 这个文件配置里可以看到模型的词表。

图6-1 词表描述文件-1

图6-2 词表描述文件-2

如6-2显示，词表中的每个词对应了一个数字，这个数字就是词表的idx，也就是词的id索引，这个索引会被embedding成相关的向量来进行训练。

我们输入进embedding层的时候往往都是一些句子，所以要对句子进行分词，NLP最早有两种。

第一是针对空格分，英文里常见，比如“I love you”，被拆成“I”, “love”, “you”。

第二是按字符分，还是“I love you”，就被拆分成“I”，“l”，“o”“，v”，“e”，“y”“o”，“u”。

目前比较成

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/784826.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

第116讲：使用Mycat-eye管理Mycat数据库服务

第116讲：使用Mycat-eye管理Mycat数据库服务

文章目录 1.Mycat的管理工具2.Mycat-eye介绍3.部署Mycat-eye3.1.安装Zookeep3.2.安装Mycat-eye3.3.访问Mycat-eye 4.在Mycat-eye中导入Mycat服务的信息 1.Mycat的管理工具 Mycat默认开通2个端口，可以在server.xml中进行修改。 8066 数据访问端口，即进行…

阅读更多...

管易云和金蝶云星空单据接口对接

管易云和金蝶云星空单据接口对接

管易云和金蝶云星空单据接口对接接入系统：金蝶云星空金蝶K/3Cloud结合当今先进管理理论和数十万家国内客户最佳应用实践，面向事业部制、多地点、多工厂等运营协同与管控型企业及集团公司，提供一个通用的ERP服务平台。K/3Cloud支持的协同应用…

阅读更多...

8.4 循环神经网络

8.4 循环神经网络

小结对隐状态使用循环计算的神经网络称为循环神经网络（RNN）。循环神经网络的隐状态可以捕获直到当前时间步序列的历史信息。循环神经网络模型的参数数量不会随着时间步的增加而增加。我们可以使用循环神经网络创建字符级语言模型。我们可以使用…

阅读更多...

条形图、柱状图的绘制方法

条形图、柱状图的绘制方法

【题目描述】用*号输出柱状图。第一行输入一个整数n表示数据个数，第二行输入n个整数，用空格隔开。n和输入的数都不超过20。【样例输入】 7 5 1 1 8 1 1 5 【样例输出】 1．条形图（水平柱状图） 样例中的柱状图属…

阅读更多...

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

前言本期文章，我们一起来探究生成式 AI 这一火热的新知识领域。目前计划有三个大方向： 代码深度实践方向。例如用代码完整诠释 Diffusion 模型的工作原理，或者 Transformer 的完整架构等； 模型部署和训练优化方向。例如尝试解…

阅读更多...

【LeetCode热题100】【数组】最大子数组和

【LeetCode热题100】【数组】最大子数组和

题目链接：53. 最大子数组和 - 力扣（LeetCode） 只要和的值不要哪个子数组，原问题的解由子问题的解组成，可以用动态规划，数组中每个元素都是一个子数组的结尾，dp[i]是以num[i]为结尾的最大子数组…

阅读更多...

Linux实战笔记(六) SSH

Linux实战笔记(六) SSH

大家好，我是半虹，这篇文章我们介绍一下 SSH 1、简介 SSH 全称 Secure Shell，本质上是建立在应用层之上的网络传输协议通过加密和认证机制保证传输安全，经常用于远程登录或者远程访问除此之外，SSH 也能完成端口转发…

阅读更多...

C++进阶篇10---特殊类设计

C++进阶篇10---特殊类设计

一、设计一个类，不能被拷贝有人可能会觉得，这不是很简单吗，直接把拷贝构造ban掉，不就行了，但事实真的如此吗？ class A { public:A(){}A(const A& tmp) delete;// ... };int main() {A a;// A b a;…

阅读更多...

Spring Boot集成itext实现html生成PDF功能

Spring Boot集成itext实现html生成PDF功能

1.itext介绍 iText是著名的开放源码的站点sourceforge一个项目，是用于生成PDF文档的一个java类库。通过iText不仅可以生成PDF或rtf的文档，而且可以将XML、Html文件转化为PDF文件 iText 的特点以下是 iText 库的显着特点 − Interactive − iText 为你提供类（API）来生成…

阅读更多...

2.从hello world开始【go】

2.从hello world开始【go】

当然，我们可以从最基本的Hello World程序开始。Hello World程序通常是学习一门新编程语言的第一步，因为它能够帮助你理解基础的程序结构和编译过程下面是一个Go语言的Hello World程序示例： package mainimport "fmt"func main()…

阅读更多...

Leetcode 3101. Count Alternating Subarrays

Leetcode 3101. Count Alternating Subarrays

Leetcode 3101. Count Alternating Subarrays 1. 解题思路2. 代码实现题目链接：3101. Count Alternating Subarrays 1. 解题思路这一题我们只需要用贪婪算法对原数组进行切分，使得每一段都是最大的交错子序列，然后，我们要获得…

阅读更多...

关于Ansible的模块②

关于Ansible的模块②

转载说明：如果您喜欢这篇文章并打算转载它，请私信作者取得授权。感谢您喜爱本文，请文明转载，谢谢。接《关于Ansible的模块 ①-CSDN博客》，继续学习和梳理Ansible的常用文件类模块 1. copy模块从当前机器上复制文件到…

阅读更多...

论文复现１：Ｍobilealoha

论文复现１：Ｍobilealoha

abstract:从人类演示中进行的模仿学习在机器人技术中表现出了令人印象深刻的表现。然而，大多数结果都集中在桌面操作上，缺乏一般有用任务所需的移动性和灵活性。在这项工作中，我们开发了一种用于模仿双手且需要全身控制的移动操纵任务的系统。我们首先推出 Mobile ALOHA，这…

阅读更多...

从vrrp、bfd、keepalived到openflow多控制器--理论篇

从vrrp、bfd、keepalived到openflow多控制器--理论篇

vrrp 在一个网络中，通常会使用vrrp技术来实现网关的高可用。 vrrp，即Virtual Router Redundancy Protocol，虚拟路由冗余协议。应用场景典型的如下面这个例子： 当Router故障后，将会导致HostA-C都无法连接外部的I…

阅读更多...

自动驾驶杂谈

自动驾驶杂谈

在2024年的今天，自动驾驶技术已经迈向了一个崭新的阶段，日趋成熟与先进。昨日，我有幸亲眼目睹了自动驾驶车辆在道路上自如行驶的场景。然而，在市区拥堵的路段中，自动驾驶车辆显得有些力不从心，它们时而疾驰…

阅读更多...

Spring Boot集成JPA快速入门demo

Spring Boot集成JPA快速入门demo

1.JPA介绍 JPA (Java Persistence API) 是 Sun 官方提出的 Java 持久化规范。它为 Java 开发人员提供了一种对象/关联映射工具来管理 Java 应用中的关系数据。他的出现主要是为了简化现有的持久化开发工作和整合 ORM 技术，结束现在 Hibernate，TopLink&am…

阅读更多...

C#调用FreeSpire.Office读取word数据的基本用法

C#调用FreeSpire.Office读取word数据的基本用法

FreeSpire.Office是Spire.Office的免费版本，后者支持全面、复杂的office文件操作功能，包括文件格式转换、文档操作、文档打印等，详细介绍见下图及参考文献1。本文学习FreeSpire.Office的基本用法并用其获取word文档的基本信息。新建Win…

阅读更多...

VTK中polydata的属性数据结构表示和用法

VTK中polydata的属性数据结构表示和用法

vtk中通过vtkDataArray进行数据的存储，通过vtkDataObject进行可视化数据的表达，在vtkDataObject内部有一个vtkFieldData的实例，负责对数据的表达： vtkFieldData存储数据的属性数据，该数据是对拓…

阅读更多...

《福建教育》期刊简介及投稿要求

《福建教育》期刊简介及投稿要求

《福建教育》期刊简介及投稿要求《福建教育》国内外公开发行的学术期刊，目前出版文献量达19187篇；总下载次数： 1361672次；总被引次数： 8709次《福建教育》是福建省教育厅主管的唯一一份主流教育专业期刊&#xff0…

阅读更多...

【嵌入式智能产品开发实战】（十二）—— 政安晨：通过ARM-Linux掌握基本技能【C语言程序的安装运行】

【嵌入式智能产品开发实战】（十二）—— 政安晨：通过ARM-Linux掌握基本技能【C语言程序的安装运行】

目录程序的安装程序安装的本质在Linux下制作软件安装包政安晨的个人主页：政安晨欢迎 👍点赞✍评论⭐收藏收录专栏: 嵌入式智能产品开发实战希望政安晨的博客能够对您有所裨益，如有不足之处，欢迎在评论区提出指正&#xf…

阅读更多...

最新文章