从词表到RLHF一镜到底训练一个大模型

第6章  如何训练大语言模型

本章节主要探讨训练大语言模型的步骤和方法论。

目前,可能大家接触的最多的模型训练方式是微调,也能收到一定程度的比较好的效果,其中有代表性的项目有Github上的Alpaca, Baize,Vicuna等。

  6.1 Pretrain 预训练

   有了微调,为什么还需要预训练,直接拿一些成熟的模型来微调不能满足吗?

 答案其实和大多数人的理解不同,绝大多数下游任务是无法通过微调来解决的,微调成功的前提的是

被微调模型的训练语料包括训练任务的种类本身和要微调的任务差距不大,最重要的是训练语料,要求预训练模型里面包含了微调训练所需要的知识。

日常的生产环境中,我们碰到的大多数问题有以下几种情况:

1-语言的不匹配,比如预训练模型是英文,微调任务是中文。

2-特定领域的专业词汇,比如医疗,生物,金融领域,这些泛知识领域或者互联网上的训练语料无法涵盖的部分。

当一个训练任务无法解决上述的问题,那么应该从预训练Pretrain开始对模型进行训练。

Pretrain实际上也分为若干个步骤。

 和微调一样,我们一般会选择一个预训练的基座模型,这个模型可以是Llama,可以是ChatGLM或者任何的开源模型,当然也可以是一个自己编辑网络架构的模型。

如果使用开源的模型比如Llama,它算是一个相对优秀的语言模型,但是它的中文表达能力,确实受到诟病,和Llama一样,大多数市面上被认可的优秀语言模型,都没有对中文部分进行充分的预训练。

6.1.1扩充词表

除了没有充分的预训练以外,第二个问题,就是词表的问题。目前的开源模型词表构成主要是由英文构成的。中文的部分几乎每一个都不是特别的完善,所以大多在预训练之前都需要进行词表的扩充,也就是扩充tokenizer的文件。

一般在如图6-1 这个文件配置里可以看到模型的词表。

图片

图6-1  词表描述文件-1

图片

图6-2 词表描述文件-2

如6-2显示,词表中的每个词对应了一个数字,这个数字就是词表的idx,也就是词的id索引,这个索引会被embedding成相关的向量来进行训练。

我们输入进embedding层的时候往往都是一些句子,所以要对句子进行分词,NLP最早有两种。

   第一是针对空格分,英文里常见,比如“I love you”,被拆成“I”, “love”, “you”。

第二是按字符分,还是“I  love you”,就被拆分成“I”,“l”,“o”“,v”,“e”,“y”“o”,“u”。

目前比较成

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/784826.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

第116讲:使用Mycat-eye管理Mycat数据库服务

文章目录 1.Mycat的管理工具2.Mycat-eye介绍3.部署Mycat-eye3.1.安装Zookeep3.2.安装Mycat-eye3.3.访问Mycat-eye 4.在Mycat-eye中导入Mycat服务的信息 1.Mycat的管理工具 Mycat默认开通2个端口,可以在server.xml中进行修改。 8066 数据访问端口,即进行…

管易云和金蝶云星空单据接口对接

管易云和金蝶云星空单据接口对接 接入系统:金蝶云星空 金蝶K/3Cloud结合当今先进管理理论和数十万家国内客户最佳应用实践,面向事业部制、多地点、多工厂等运营协同与管控型企业及集团公司,提供一个通用的ERP服务平台。K/3Cloud支持的协同应用…

8.4 循环神经网络

小结 对隐状态使用循环计算的神经网络称为循环神经网络(RNN)。 循环神经网络的隐状态可以捕获直到当前时间步序列的历史信息。 循环神经网络模型的参数数量不会随着时间步的增加而增加。 我们可以使用循环神经网络创建字符级语言模型。 我们可以使用…

条形图、柱状图的绘制方法

【题目描述】 用*号输出柱状图。第一行输入一个整数n表示数据个数,第二行输入n个整数,用空格隔开。n和输入的数都不超过20。 【样例输入】 7 5 1 1 8 1 1 5 【样例输出】 1.条形图(水平柱状图) 样例中的柱状图属…

Generative AI 新世界 | 扩散模型原理的代码实践之采样篇

前言 本期文章,我们一起来探究生成式 AI 这一火热的新知识领域。 目前计划有三个大方向: 代码深度实践方向。例如用代码完整诠释 Diffusion 模型的工作原理,或者 Transformer 的完整架构等; 模型部署和训练优化方向。例如尝试解…

关于Ansible的模块②

转载说明:如果您喜欢这篇文章并打算转载它,请私信作者取得授权。感谢您喜爱本文,请文明转载,谢谢。 接《关于Ansible的模块 ①-CSDN博客》,继续学习和梳理Ansible的常用文件类模块 1. copy模块 从当前机器上复制文件到…

从vrrp、bfd、keepalived到openflow多控制器--理论篇

vrrp 在一个网络中,通常会使用vrrp技术来实现网关的高可用。 vrrp,即Virtual Router Redundancy Protocol,虚拟路由冗余协议。 应用场景 典型的如下面这个例子: 当Router故障后,将会导致HostA-C都无法连接外部的I…

自动驾驶杂谈

在2024年的今天,自动驾驶技术已经迈向了一个崭新的阶段,日趋成熟与先进。昨日,我有幸亲眼目睹了自动驾驶车辆在道路上自如行驶的场景。然而,在市区拥堵的路段中,自动驾驶车辆显得有些力不从心,它们时而疾驰…

Spring Boot集成JPA快速入门demo

1.JPA介绍 JPA (Java Persistence API) 是 Sun 官方提出的 Java 持久化规范。它为 Java 开发人员提供了一种对象/关联映射工具来管理 Java 应用中的关系数据。他的出现主要是为了简化现有的持久化开发工作和整合 ORM 技术,结束现在 Hibernate,TopLink&am…

C#调用FreeSpire.Office读取word数据的基本用法

FreeSpire.Office是Spire.Office的免费版本,后者支持全面、复杂的office文件操作功能,包括文件格式转换、文档操作、文档打印等,详细介绍见下图及参考文献1。本文学习FreeSpire.Office的基本用法并用其获取word文档的基本信息。   新建Win…

VTK中polydata的属性数据结构表示和用法

vtk中通过vtkDataArray进行数据的存储,通过vtkDataObject进行可视化数据的表达,在vtkDataObject内部有一个vtkFieldData的实例,负责对数据的表达: ​​​​​​​ vtkFieldData存储数据的属性数据,该数据是对拓…

《福建教育》期刊简介及投稿要求

《福建教育》期刊简介及投稿要求 《福建教育》国内外公开发行的学术期刊,目前出版文献量达19187篇;总下载次数: 1361672次;总被引次数: 8709次 《福建教育》是福建省教育厅主管的唯一一份主流教育专业期刊&#xff0…

【嵌入式智能产品开发实战】(十二)—— 政安晨:通过ARM-Linux掌握基本技能【C语言程序的安装运行】

目录 程序的安装 程序安装的本质 在Linux下制作软件安装包 政安晨的个人主页:政安晨 欢迎 👍点赞✍评论⭐收藏 收录专栏: 嵌入式智能产品开发实战 希望政安晨的博客能够对您有所裨益,如有不足之处,欢迎在评论区提出指正&#xf…

MybatisPlus速成

MybatisPlus快速入门 快速入门入门案例常见注解常见配置 核心功能条件构造器自定义SQLService接口 扩展功能代码生成静态工具逻辑删除枚举处理器JSON处理器 插件功能分页插件通用分页实体 参考文档 mybatis-plus参考文档 全部资料链接 讲义 快速入门 入门案例 <dependency…

骑行不将就,坐垫要讲究!跟维乐来一场骑美合一的美学旅行~

想象一下&#xff0c;你胯下的坐垫不再是冷冰冰的硬疙瘩&#xff0c;而是化身为“骑行界的舒适艺术家”。美学坐垫宛如马鞍上的微型沙发&#xff0c;采用美学与人体工学的跨界联姻&#xff0c;不仅赏心悦目&#xff0c;更能温柔拥抱你的臀部。它那精妙的曲线设计&#xff0c;仿…

AI大模型在金融行业的应用场景和落地路径

作者&#xff1a;林建明 来源&#xff1a;IT阅读排行榜 本文摘编自《AIGC重塑金融&#xff1a;AI大模型驱动的金融变革与实践》&#xff0c;机械工业出版社出版这是最好的时代&#xff0c;也是最坏的时代。尽管大模型技术在金融领域具有巨大的应用潜力&#xff0c;但其应用也面…

基于两个单片机串行通信的电子密码锁设计

1.功能 电子号码锁在实际应用中应该有两部分&#xff0c;一部分在外部&#xff0c;有键盘部分和密码显示&#xff1b;另一部分内部&#xff0c;设置密码、显示密码。使用单片机自身带有的串口可以很方便的实现单片机之间的通信&#xff0c;使输入的密码值传送到主机检验是否是…

ctf题目

目录 1.文件包含的一道题目&#xff0c;没什么难度&#xff0c; 2.一道sql注入的题目&#xff0c;伪静态 3.限制只能本地访问。 1.文件包含的一道题目&#xff0c;没什么难度&#xff0c; 但是一个点就是它这里去包含的那个文件名就是flag&#xff0c;而不是flag.php也不是f…

数据库---------完全备份和增量备份的数据恢复,以及断点恢复

目录 一、在数据库表中&#xff0c;分三次录入学生考试成绩 1.1先创建库&#xff0c;创建表&#xff0c;完成三次数据的录入 1.2首次录入成绩后&#xff0c;做该表的完全备份 1.3第二次插入后 做增量备份 1.4第三次插入后 做增量备份 二、模拟数据丢失&#xff0c;并使用…

小练习——java中循环语句打印乘法口诀表

正向乘法表 for (int i 1; i<9; i) {for (int j 1; j < i; j) {System.out.print(j "X" i "" (i * j) "\t");}System.out.println();}代码结果&#xff1a; 打印反向乘法表 for (int i 9; i > 1; i--) {for (int j 1; j <…