大语言模型垂直化训练技术与应用

在人工智能领域,大语言模型(Large Language Models, LLMs)已经成为推动技术进步的关键力量,垂直化训练技术逐渐成为研究的热点,它使得大模型能够更精准地服务于特定行业和应用场景。本文结合达观数据的分享,探讨大语言模型的垂直化训练技术及其在不同领域的应用实践。
在这里插入图片描述

大语言模型的垂直化训练:定义与重要性

垂直化训练技术指的是针对特定行业或应用场景,对大语言模型进行定制化训练,使其能够更好地理解和生成特定领域的内容。这种训练方式的重要性在于,它能够提高模型在特定任务上的表现,同时减少对通用数据的依赖。
垂直领域AIGC应用的关键点

对现有的GPT模型进一步挖掘潜力,生成更有性价比的垂直大模型方案
对优质训练数据的蒸馏加工,更好的体现垂直化、专业化的应用
为toB客户量身打造好的大模型方案,探索更好的效果和高价值应用场景
针对垂直应用场景,值得探索prompt等产品创新和功能增强

垂直化训练的难点

  • 数据专业性:需要获取和处理大量高质量的专业领域数据。
  • 模型泛化能力:在提升特定领域能力的同时,保持模型在通用任务上的表现。
  • 资源投入:相较于通用模型训练,垂直化训练可能需要更多的领域专家参与和更精细的数据处理。

大语言模型的垂直化训练技术

参数规模与数据规模的探索

  • Scaling Laws:研究表明,模型的效果与参数量、数据量、计算量呈幂次关系,即模型参数量和训练数据量的增加可以显著提升模型性能。
  • Compute-Optimal:研究提出,训练数据大小应与模型参数量等比放大,以达到最优的计算效率。
  • Open and Efficient:例如,Meta推出的LLaMA模型显示,即使在百亿参数规模,经过大量数据训练后,模型性能仍有显著提升。

在这里插入图片描述
研究给出了三种最优计算方式,并且比较了如GPT-3(175B)等千亿模型并没有达到该理论的计算最优点。意味着GPT-3仍未被充分训练(下图)
换言之,当下的干亿参数模型,可能只发挥到了百亿模型的理论效果,一些参数可能被浪费了。
在这里插入图片描述
同时可以看到在训练过程中,无论是65B、33B、17B,甚至7B的小模型,在训练数据接近和超过万亿Token之后,下游任务的效果仍在提升(下图)。故此可推测,百亿模型的潜力仍有待深入挖掘,尤其在算力资源受限的情况下存在性价比更高的优化空间
在这里插入图片描述

垂直领域预训练路线

垂直领域大模型预训练的三种思路
在这里插入图片描述

自适应预训练

路线1:先大规模通用语料预训练,再用小规模领域语料预训练。在大规模通用语料预训练的基础上,使用小规模领域语料进行二次训练,以提升模型在特定领域的表现。
代表模型 GPT3-Codex、Yuyuan-GPT2-3.5B、金融领域FinBERT、生物医学领域BiOBERT等
领域自适应预训练(Domain-Adaptive Pre-Training,DAPT):在模型预训练权重上喂领域语料继续预训练
任务自适应预训练(Task-Adaptive Pre-Traininq,TAPT):在领域任务数据集上继续预训练
在这里插入图片描述

OpenAI 探索:当涉及与Code领域无关的文本生成时,Codex的生成和GPT-3的生成差异不大,体现在两者有很多共现的词,区别在于GPT3表述的多样性。
在这里插入图片描述

有可能是小规模领域语料预训练后的大模型在自身领域内相比通用大模型增强,而在通用生成上表现与通用大模型相当

直接大规模领域语料预训练

路线2:直接进行大规模领域语料预训练
代表模型:医学领域PubMedGPT2.7B、金融领域BBT-FinT5
数据规模百亿~干亿tokens
模型规模1B~10B
在这里插入图片描述

垂直领域大模型在领域上的各任务上通用性 >>小模型
垂直领域大模型在领域任务上效果 >相同规模的通用大模型再finetune
垂直领域大模型所用资源<<通用大模型(数据规模和模型规模),就能达到和超大规模模型在领域上接近的效果

领域语料混合训练

路线3:通用语料比例混合领域语料同时预训练,尚无明确的此类模型。
在这里插入图片描述

微调技术探索

增量微调(Delta-tuning)

只更新模型中的少量参数,以降低微调成本,同时保持模型性能。
目标:降低大模型微调成本。由于模型规模的增大,传统微调的方法变得难以实现。更高效率的微调方式,因而称之为增量微调(Delta-tuning)的方法被提出。
方法:Delta tuning只更新少量参数,同时冻结其余占绝大多数的参数。这些年来的研究中,以下几种方法较有代表性:

  • Adapter tuning:在PLM的层之间插入适配器模块,并且只有这些插入的模块在微调期间得到更新。
  • Prefix tuning:通过更新预先插入的参数来调整PLM
  • Prompt tuning:更新任务特定的可训练参数
  • BitFit:只更新PLM中的偏差项,同时冻结PLM其余参数。
  • LORA:将注意力权重梯度分解为低秩矩阵,以减少可训练参数的数量。

在这里插入图片描述
结果显示,delta tuniq和fine tuning之间的差距并非不可逾越,这证明了参数有效自适应的大规模应用的潜力。

多任务提示/指令微调

目标:提升语言模型在多任务中的零样本推理能力。
方法:在多任务数据集上进行微调。微调后的语言模型具有很强的零任务概括能力。
在这里插入图片描述

多任务微调也是很多大模型的常用手段。

COT(Chain-of-Thought)微调

目标:使小语言模型获得思维链能力。
大模型的思维链能力,指的是一步一步地展示推理过程能力。但是,研究者发现,小语言模型(通常小于100B)几乎很难获得这种能力。
为了使小模型也拥有思维链的能力,多个研究使用大模型GPT3,PaIM作为教师模型进行训练,使学生模型T5和fanT5获得了一定的思维链能力。在这里插入图片描述
方法:
1.将文本(questions + prompt)输入给大模型
2.用大模型输出含有思维链且正确的文本作为label
3.用上述数据组成的数据对(右图Reasoning samples),直接对小模型进行微调

提示工程和垂直优化

提示工程( Prompt Engineering):在文本上附加额外的提示(Prompt)信息作为输入,将下游的预测等任务转化为语言模型(Language Model)任务,并将语言模型的预测结果转化为原本下游任务的预测结果,挖掘模型的潜力

垂直领域的提示工程:要让模型完成垂直领域的指定任务,必须能在提示中给模型提出明确的要求,垂直领域的专业任务往往有并把期望的表现阐述清楚,提示工程就是使得模型尽可能按照期望输出的过程

提示生成的产品化:复杂的垂直领域任务可能需要极为丰富的prompt信息,包括各类事实、数据、要求等,并存在层层递进的多步骤任务,因此值得探索产品化方案来生成prompt

产品化思路
基于垂直领域的人类专家,针对每项垂直任务,来设计用于生成prompt的产品

1.由垂直领域的人类专家编写大量不同的Prompt
2.评估并选择模型输出效果好的Prompt
3.将固定和变动的prompt片段进行区分,并形成prompt产品,用于后续使用
4.对多层递进的AIGC任务,形成若干prompt产品

自动化思路
通过借过外部工具,或通过自动化的流程方法和训练方式,对Prompt进行自动优化

1.Prompt优化工具、引擎
2.让LLM模型自己提问、优化
3. Automatic Prompt Engineer(APE)
4. Directional Stimulus Prompting (DSP)

在这里插入图片描述

模型训练加速思路

在这里插入图片描述

  • 分布式并行:通过数据并行、模型并行、流水线并行等技术提高模型训练速度。
    在这里插入图片描述

  • 显存优化:采用混合精度训练、Activation Checkpointing、ZeRO方案等技术降低显存占用。

在这里插入图片描述

结语

通过针对性的训练和优化,大模型能够在特定领域展现更强大的能力,重塑行业工作流程。如它们自动化生成专业文档,智能提取关键信息,优化搜索结果,并在日常办公任务中提供支持,显著提升效率和生产力等。大语言模型的垂直化训练技术是人工智能领域值得关注的方向。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/869345.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

tomcat 项目迁移,无法将项目作为服务service启动

背景 测试服务器需要迁移到正式服务器上&#xff0c;为了方便省事&#xff0c;将测试服务器上的一些文件直接复制到正式服务器 问题 使用startup启动项目之后&#xff0c;可以直接使用使用tomcat9w启动&#xff0c;或者作为服务service启动的时候&#xff0c;显示无法访问到资源…

AGE Cypher 查询格式

使用 ag_catalog 中的名为 cypher 的函数构建 Cypher 查询&#xff0c;该函数返回 Postgres 的记录集合。 Cypher() Cypher() 函数执行作为参数传递的 Cypher 查询。 语法&#xff1a;cypher(graph_name, query_string, parameters) 返回&#xff1a; A SETOF records 参…

自动驾驶事故频发,安全痛点在哪里?

大数据产业创新服务媒体 ——聚焦数据 改变商业 近日&#xff0c;武汉城市留言板上出现了多条关于萝卜快跑的投诉&#xff0c;多名市民反映萝卜快跑出现无故停在马路中间、高架上占最左道低速行驶、转弯卡着不动等情况&#xff0c;导致早晚高峰时段出现拥堵。萝卜快跑是百度 A…

YOLOv5、v7、v8如何修改检测框文字颜色和大小

YOLOv5和YOLOv8默认的标签文字颜色为白色&#xff0c;但是在亮度较大的图片中文字不明显&#xff0c;就需要对标签文字的颜色进行修改 一、YOLOv5 打开X:\Anaconda\envs\your-env\Lib\site-packages\ultralytics\utils\plotting.py X代表你的anaconda安装的盘&#xff0c;yo…

随笔(一)

1.即时通信软件原理&#xff08;发展&#xff09; 即时通信软件实现原理_即时通讯原理-CSDN博客 笔记&#xff1a; 2.泛洪算法&#xff1a; 算法介绍 | 泛洪算法&#xff08;Flood fill Algorithm&#xff09;-CSDN博客 漫水填充算法实现最常见有四邻域像素填充法&#xf…

最全windows提权总结(建议收藏)

当以低权用户进去一个陌生的windows机器后&#xff0c;无论是提权还是后续做什么&#xff0c;第一步肯定要尽可能的搜集信息。知己知彼&#xff0c;才百战不殆。 常规信息搜集 systeminfo 查询系统信息hostname 主机名net user 查看用户信息netstat -ano|find "3389&quo…

论文 | Chain-of-Thought Prompting Elicits Reasoningin Large Language Models 思维链

这篇论文研究了如何通过生成一系列中间推理步骤&#xff08;即思维链&#xff09;来显著提高大型语言模型进行复杂推理的能力。论文展示了一种简单的方法&#xff0c;称为思维链提示&#xff0c;通过在提示中提供几个思维链示例来自然地激发这种推理能力。 主要发现&#xff1…

SDIO CMD 数据部分 CRC 计算规则

使用的在线 crc 计算工具网址&#xff1a;http://www.ip33.com/crc.html CMD CRC7 计算 如下图为使用逻辑分析仪获取的SDIO读写SD卡时&#xff0c;CMD16指令发送的格式&#xff0c;通过逻辑分析仪总线分析&#xff0c;可以看到&#xff0c;该部分的CRC7校验值得0x05,大多数情况…

MySQL之基本查询(上)-表的增删查改

目录 Create(创建) 案例建表 插入 单行数据 指定列插入 单行数据 全列插入 多行数据 全列插入 插入是否更新 插入时更新 替换 Retrieve(读取) 建表插入 select列 全列查询 指定列查询 查询字段为表达式 为查询结果指定别名 结果去重 where条件 比较运算符 逻辑运…

昇腾APN最佳伙伴—英码科技AI算力计算产品亮相WAIC 2024

2024年7月4日-7日&#xff0c; “以共商促共享&#xff0c;以善治促善智”为主题的2024世界人工智能大会暨人工智能全球治理高级别会议&#xff08;WAIC&#xff09;在上海世博展览中心隆重举行。国务院总理李强出席开幕式并致辞。来自50多个国家和地区的1300位全球领军人物、展…

分享:Motionity-开源的Web端动画编辑器

Motionity是一个免费且开源的Web端动画编辑器&#xff0c;它结合了After Effects和Canva的优点&#xff0c;为用户提供了强大的动画编辑功能。支持视频剪切、图像搜索过滤、文本动画库、图层蒙版等功能。 一、项目背景与特点 开源项目&#xff1a;Motionity是一个开源项目&…

utf8mb4和utf8的不同、若依框架,代码生成器,gitee,前端vue的下载、修复和启动(寻求大佬帮助若依框架三、2.3)

2024.7.9 一、数据库的排序和统一问题。utf8mb4和utf8的不同1.1 发现问题1.2 解决问题-在idea中用sql生成器&#xff0c;生成sql语句&#xff0c;然后在里面修改1.3 utf8和utf8mb4的区别 二、若依前后端框架。代码生成器&#xff08;还没研究懂&#xff0c;但有三个方案&#x…

重塑智慧生活想象 Yeelight易来举行2024年战略及新品发布会圆满成功

7月9日&#xff0c;智能照明品牌Yeelight易来在广州举行“光为境和无界”——2024年Yeelight易来战略&新品发布会&#xff0c;此次发布会不仅展示了易来在新的一年中取得的显著业绩增长&#xff0c;还发布了多款引领行业潮流的智能新品。同时&#xff0c;发布会还邀请了权威…

如何学好C++?

首先&#xff0c;对于零基础的想学习C的同学&#xff0c;我想要你们先明白一件事&#xff1a;C是一门极为复杂且难以掌握的编程语言。因此推荐在学习C之前可以先去学习C语言&#xff0c;在拥有了一定的知识储备和编程能力后再学习C会更加的高效和相对轻松。 下面推荐从三个方面…

gitee及git的简单使用、下载教(保姆级教程)

前言&#xff1a; GitHub&#xff0c;一个由外国研发的代码开源网站&#xff0c;我们可以通过它获得别人优秀的项目源码&#xff0c;也可以在上面上传自己的劳动成果。但是&#xff0c;我们很难访问外网。于是&#xff0c;我们将目光转向国内一个类似的网站---码云&#xff08…

静态路由配置注意事项及黑洞路由的使用

静态路由 1 . 定义 从管理员处学习到的数据转发路径&#xff0c;就称为静态路由。 2 . 路由表 Proto &#xff1a;协议&#xff08; Protocol &#xff09; Direct — 直连链路Static — 静态路由RIP 、OSPF 等 — 动态路由 Pre : 优先级&#xff08; Preference &#x…

设计模式之职责链模式(Chain of Responsibility Pattern)

1.概念 职责链模式&#xff08;Chain of Responsibility Pattern&#xff09;&#xff1a;避免将请求发送者与接收者耦合在一起&#xff0c;让多个对象都有机会接收请求&#xff0c;将这些对象连接成一条链&#xff0c;并且沿着这条链传递请求&#xff0c;直到有对象处理它为止…

搞清楚[继承],易如反掌

穷不失义&#xff0c;达不离道。——孔丘《论语》 继承 1、简单理解2、继承2、1、继承的概念2、2、继承定义2、3、基类和派生类对象赋值转换2、4、继承中的作用域2、5、派生类默认成员函数2、6、继承中的特点2、6、1、友元2、6、2、静态成员2、6、3、菱形继承及菱形虚拟继承 3、…

html H5 dialog弹窗学习,实现弹窗显示内容 替代confirm、alert

html H5 dialog弹窗学习,实现弹窗内容 替代confirm 框架使用的mui,使用mui.confirm() 弹窗内容过多时,弹窗被撑的到屏幕外去了,使用H5 dialog 标签自定义一个固定大小的弹窗,内容过多时可下拉显示 效果展示 隐私政策内容很多,可以下拉显示 代码 myDialog.css dialog{p…

【深度学习基础】MacOS PyCharm连接远程服务器

目录 一、需求描述二、建立与服务器的远程连接1. 新版Pycharm的界面有什么不同&#xff1f;2. 创建远程连接3. 建立本地项目与远程服务器项目之间的路径映射4.设置保存自动上传文件 三、设置解释器总结 写在前面&#xff0c;本人用的是Macbook Pro&#xff0c; M3 MAX处理器&am…