【Qwen模型】QWEN TECHNICAL REPORT

【Qwen模型】QWEN TECHNICAL REPORT

  • 论文信息
    • 阅读评价
  • Abstract
  • Introduction
  • PreTraining
  • ALIGNMENT(对齐)
  • CODE-QWEN: SPECIALIZED MODEL FOR CODING
  • MATH-QWEN: SPECIALIZED MODEL FOR MATHEMATICS REASONING
  • RELATED WORK
  • CONCLUSION

论文信息

名称内容
论文标题QWEN TECHNICAL REPORT
论文地址https://arxiv.org/abs/2309.16609
发表时间2023-9-28
研究领域NLP, LLM, RoPE, RMSNorm
提出模型Qwen

阅读评价

  千问是阿里用业界最新Tricks开发的大模型。

  在阅读了本篇论文和transformers库里面的Qwen2Model源码之后,我观察到模型用的组件tricks有RoPE(苏剑林提出)、RMSNorm、SwiGLU、SdpaAttention等等;

  个人感受: 现在模型的训练过程都是大同小异。
  从模型效率、性能角度入手,大家倾向于不断优化模型的每个组件,如归一化用RMSNorm、位置编码用RoPE。
  从模型长文本理解能力角度入手,千问采用了几种注意力机制,如LogN-Scaling和window attention。
  从模型的外推能力角度入手,大家对NTK技术、位置编码技术等等也有探索。
  最后,对开源的工作献上致敬!respect!


  以下是对论文每个部分的简单介绍。

Abstract

  文章提出了QWEN系列大语言模型,包括预训练模型Qwen、聊天模型Qwen-Chat、代码生成模型Code-Qwen-Chat、数学专业模型Math-Qwen-Chat等等。

Introduction

  LLM不仅仅局限于语言任务,它也可以作为代理(Agent)存在,从而支持自动驾驶、多模态、执行代码、使用工具等等功能。论文基于最新的trick,并结合了监督微调(SFT)和人类反馈强化学习(RLHF)训练了千问模型。

PreTraining

  在训练数据方面,包括公共网络文档、百科全书、书籍、代码等。并且数据集是多语言的,其中很大部分数据是英语和中文。为了保证数据集的质量,论文用了一系列方法清洗数据。

  在词汇方面,千问用BPE编码来生成token,并得到152K的词汇。

  在模型结构方面,千问是从Llama模型上修改的。具体修改的细节有:

【注】我看Qwen2的源码的注释里面,有一部分是直接复制了Mistral模型的代码。

  1、位置嵌入:使用了旋转位置编码RoPE;
  2、偏置:计算QKV向量的线性层全部添加了偏置;
  3、预先归一化和RMSNorm:归一化放在了最开始,并且采用RMSNorm;

【注】RMSNorm比较简单好懂,建议阅读:【RMSNorm】Root Mean Square Layer Normalization

  4、激活:使用SwiGLU。

【注】SwiGLU相关的激活函数同样好懂,建议阅读:【T5中的激活函数】GLU Variants Improve Transformer

  在外推方面,使用了动态NTK感知插值,还使用了两种注意力机制:LogN-Scaling(Chiang 和窗口注意力。 LogN-Scaling 通过一个取决于上下文长度与训练长度之比的因子重新调整查询和值的点积,确保注意力值的熵随着上下文长度的增长保持稳定。 窗口注意力将注意力限制在有限的上下文窗口中,防止模型关注太远的标记。

【注】动态NTK感知插值我还没看原论文,先不介绍。

  并且千问还为每一层分配不同的窗口大小,对较低层使用较短的窗口,对较高层使用较长的窗口。

ALIGNMENT(对齐)

  Aligment这个词早在InstructGPT论文中就已经出现了,不过把它翻译成“对齐”我对它完全没有啥好印象。

【注】我们在LLM领域的对齐指的是,LLM性能还欠缺,不拟人,需要把它的性能提升(对齐)到人的水平。

  对齐的方法有两种:使用监督微调(SFT)和人类反馈强化学习(RLHF)等对齐技术可以显着提高语言模型进行自然对话的能力。

  监督微调(SFT) 就是拿着多轮对话数据去微调对话模型。其中,Qwen模型采用多种风格注释对话、排除提示模板中格式化的数据、通过注释与暴力、偏见和色情等安全问题相关的数据来优先考虑语言模型的安全性、利用ChatML风格的格式使模型能够有效地区分各种类型的信息等方法来进一步提升性能。

  人类反馈强化学习(RLHF) 比较复杂。建议大家看B站上李沐老师的InstructGPT论文讲解。实现RLHF需要再设计并微调一个奖励模型,并且需要大量高质量的排序数据。包括如何在产品发布后收集用户的反馈信息,如何处理并强化学习,这个是需要学院派和工程派合作解决的问题。

CODE-QWEN: SPECIALIZED MODEL FOR CODING

  介绍了代码生成模型的训练。

MATH-QWEN: SPECIALIZED MODEL FOR MATHEMATICS REASONING

  介绍了数学专业模型的训练。

RELATED WORK

【注】相关工作写最后的论文头一次见。

  LLM
  提了一下GPT、T5、ChatGPT、LLaMA、ChatGLM2。

  对齐
  提了一下SFT和RLHF两种主要的对齐方法。并且说SFT的缺点是全量调参成本高,虽然有PEFT方法(LoRA等),但是PEFT顶多算是平替,无法提高模型性能。

  工具使用和代理
  主要是在说Agent、RAG、LangChain这些概念。

CONCLUSION

  报告介绍了 QWEN 系列大型语言模型,这些模型具有 14B、7B 和 1.8B 参数,并使用 SFT 和 RLHF 等尖端技术进行微调。 此外,QWEN 系列还包括用于编码和数学的专用模型,例如 CODE-QWEN、CODE-QWEN-CHAT 和 MATH-QWENCHAT。 开源了Qwen模型,并且期待大家使用。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/bicheng/499.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

v1.9.2-httpsok快速申请免费SSL证书

v1.9.2-🔥httpsok快速申请免费SSL证书 介绍 httpsok 是一个便捷的 HTTPS 证书自动续签工具,专为 Nginx 、OpenResty 服务器设计。已服务众多中小企业,稳定、安全、可靠。 一行命令,一分钟轻松搞定SSL证书自动续期 更新日志 V1…

endnote21从安装到使用!文献引用!Mac版

视频学习和资源获取 新建库 选择上方导航栏处的File下的New 软件 软件界面可以分成四个部分 2是个人图书馆 3是对某一分类中文献的展示 最右侧是对具体一篇文献的摘要、编辑以及PDF 有回形针标志意味着这篇有全文,也就是有pdf 如果没有回形针代表它只有引文信…

HCIP的学习(10)

OSPF不规则区域划分 区域划分 非骨干与骨干区域直接相连骨干区域唯一 限制规则: 非骨干区域之间不允许直接相互发布区域间路由信息OSPF区域水平分割:从非骨干区域收到的路由信息,ABR设备能接收到不能使用(从某区域传出的路由&…

敢不敢挑战?看完这篇 Python 学习攻略不成大牛就请我退出 IT !

目录 0基础小白怎么学Python? Python基本概念最全图 1.Python 解释器: 2.Python数据结构: 3.变量与运算符: 4.Python 流程控制: 5.Python 文件处理: 6.Python 输入输出: 7.Python 异常…

注意力机制基本思想(一)

​🌈 个人主页:十二月的猫-CSDN博客🔥 系列专栏: 🏀《深度学习基础知识》 相关专栏: ⚽《机器学习基础知识》 🏐《机器学习项目实战》 🥎《深度学习项目实战…

2024年华中杯B题论文发布+数据预处理问题一代码免费分享

【腾讯文档】2024年华中杯B题资料汇总 https://docs.qq.com/doc/DSExMdnNsamxCVUJt 行车轨迹估计交通信号灯周期问题 摘要 在城市化迅速发展的今天,交通管理和优化已成为关键的城市运营问题之一。本文将基于题目给出的数据,对行车轨迹估计交通信号灯…

DBA面试(ORACLE ADG篇)

一、在Oracle的DG中,RFS、LNSn、MRP、LSP进程的作用分别是什么? 1.RFS进程 RFS(Remote File Server)进程主要用来接受从主库传送过来的日志信息。对于物理备库而言,RFS进程可以直接将日志写进Standby Redo logs&…

七月论文审稿GPT第4.5版:通过15K条paper-review数据微调Llama2 70B(含各种坑)

前言 当我们3月下旬微调完Mixtral 8x7B之后(更多详见:七月论文大模型:含论文的审稿、阅读、写作、修订 ),下一个想微调的就是llama2 70B 因为之前积攒了不少微调代码和微调经验,所以3月底apple便通过5K的paper-review数据集成功…

在Java Swing的JPanel中实现动态水印添加技术

在Java Swing的JPanel中实现动态水印添加技术 引言场景一:静态图片水印实现步骤应用示例 场景二:动态生成的组件水印应用示例结论 后续拓展 引言 在Java Swing应用程序开发中,JPanel作为基本的容器组件,常被用来构建丰富的图形用户…

机器视觉【1】-机械臂视觉

文章目录 Eye-to-HandEye-in-Hand基于Eye-in-Hand型机械臂单目视觉定位单目相机标定针孔相机模型畸变标定方法机械臂手眼标定手眼标定求解图像预处理图像灰度化与二值化图像滤波图像特征匹配机械臂单目视觉定位目标物体图像深度信息目标物体中心定位参考文献根据机械臂与相机所…

深圳南玻集团(二面)

不得不说这家公司的办事效率是真的高。我昨天下午3点面试的,4点结束。然后4点45分就跟我说面试通过了,叫我明天早上10点进行二面。二面聊了大概20分钟左右吧,那个面试官是信息部的,好像是个总监还是总经理,反正叫沈总。…

详解人证合一API接口背后的身份信息认证

人证合一API接口是一种高级的身份验证解决方案,它将姓名、身份证号码、头像照片等多种生物特征和身份标识信息相结合,通过云端智能分析并与公安部门权威数据库进行实时比对,以确定用户身份的真实性。这个过程不仅仅停留在表面文字信息的匹配&…

基于PyAutoGUI图片定位的自动化截图工具--完成了

1、计划 压测完成后需要编写性能测试报告,报告中所需数据截图较多,使用自动化操作方便快捷,就编写一个界面工具以便后续复用。 基于PyAutoGUI图片定位的自动化截图工具–jmeter部分 基于PyAutoGUI图片定位的自动化截图工具–jmeter部分&#…

jenkins从节点配置说明

目的 打包构建时使用从节点,从节点所在服务器配置4C8G5000G(服务器2) 前提 首先在服务器1上部署jenkins服务,即主节点,默认节点名称为master 步骤 1)登录进入jenkins平台,在系统设置中&…

AJAX 入门到实战 第1天 2024 笔记

1.1-AJAX入门与axios使用 1.2-认识URL 1.3-查询参数 1.4-案例_地区查询 <script src"https://cdn.jsdelivr.net/npm/axios/dist/axios.min.js"></script><script>/*获取地区列表: http://hmajax.itheima.net/api/area查询参数:pname: 省份或直辖市…

基于adb操作安卓手机封装的python库

import re import shlex import subprocessclass ADBClient:def __init__(self, ip, port):"""初始化ADBClient实例。:param ip: 远程设备的IP地址。:param port: 远程设备的端口号。"""self.ip ipself.port portdef is_app_running(self, pac…

李沐53_语言模型——自学笔记

语言模型 1.预测文本序列出现的概率 2.应用在做预训练模型 3.生成文本&#xff0c;给定前面几个词&#xff0c;不断生成后续文本 4.判断多个序列中哪个更常见 真实数据集的统计 《时光机器》数据集构建词表&#xff0c; 并打印前10个最常用的&#xff08;频率最高的&…

1942年苏军反攻哈尔科夫失败

1942年5月&#xff0c;苏军计划夺回哈尔科夫&#xff0c;消灭城内的德国南方集团军群第6集团军。苏军为这次战役投入了西南方面军和南方面军&#xff0c;苏军元帅铁木辛哥制定了作战计划&#xff0c;非常凑巧的是&#xff0c;德军也于大致相同的时间制定了进攻计划。5月12日&am…

C语言 | 动态内存管理

目录&#xff1a; 1. 为什么要有动态内存分配 2. malloc和free 3. calloc和realloc 4. 常见的动态内存的错误 5. 动态内存经典笔试题分析 6. 柔性数组 1. 为什么要有动态内存分配 我们已经掌握的内存开辟方式有&#xff1a; int val 20; //在栈空间上开辟四个字节 cha…

一篇文章搞定Jenkins自动化部署JDK17+SpringBoot3.X+新版AlibabaCloud打包Docker镜像推送私有镜像仓库

&#x1f680; 作者 &#xff1a;“二当家-小D” &#x1f680; 博主简介&#xff1a;⭐前荔枝FM架构师、阿里资深工程师||曾任职于阿里巴巴担任多个项目负责人&#xff0c;8年开发架构经验&#xff0c;精通java,擅长分布式高并发架构,自动化压力测试&#xff0c;微服务容器化k…