大语言模型的关键技术

大语言模型的关键技术:

       经过漫长的发展,LLM 进化到了当前的状态——通用且有能力的学习者。在这个过程中,人们提出了许多重要的技术,大大提升了 LLM 的能力。在此,我们简要列举了几种重要的技术,这些技术(可能)是导致 LLM 成功的关键。

1.扩展

       Transformer 语言模型存在明显的扩展效应更大的模型/数据规模和更多的训练计算通常会导致模型能力的提升。作为两个代表性的模型,GPT-3 和 PaLM 通过增加模型规模分别达到了 1750 亿 和 5400 亿。

       此外,由于计算预算通常是有限的,可以利用扩 展法则来更高效地分配计算资源。例如,Chinchilla(具有更多的训练 token)通过在相同的计算预算下增加数据规模,优于其对应的模型 Gopher(具有更大的模型规模。然而,

        需要注意的是,数据扩展应该经过谨慎的清理过程,因为预 训练数据的质量在模型能力中起着关键作用。

2.训练

        由于巨大的模型规模,成功训练一种能力强的 LLM 是非常具有挑战性的。分布式训练算法是学习 LLM 网络参数所必需的,其中通常联合使用各种并行策略。为了支持分布式训练,已经发布了一些优化框架来促进并行算法的 实现和部署,例如 DeepSpeed 和 Megatron-LM。

       此外,优化技巧对于训练稳定性和模型性能也很重要,例如 重新开始以克服训练损失激增和混合精度训练。最近,GPT-4 提出开发特殊的基础结构和优化方法,用更小的模型来可靠地预测大模型性能。

3.能力引导

       在大规模语料库上预训练之后,LLM具备了作为通用任务求解器的潜在能力。然而,当 LLM 执行一些特定任务时,这些能力可能不会显式地展示出来。作为技术手段,设计合适的任务指令或具体的 ICL 策略可以激发这些能力。例如,通过包含中间推理步骤,CoT提示已被证明对解决复杂的推理任务有效。

        此外,我们还可以使用自然语言表达的任务描述对LLM 进行指令微调,以提高LLM 在未见任务上的泛化能力。然而,这些技术主要对应于LLM 的涌现能力,可能对小语言模型的效果不同。

4.对齐微调

       由于LLM 被训练用来捕捉预训练语料库的数据特征(包括高质量和低质量的数据),它们可能会为人类生成有毒、偏见甚至有害的内容。因此,有必要使 LLM 与人类价值观保持一致,例如有用性、诚实性和无害性。为此, InstructGPT设计了一种有效的微调方法,使 LLM 能够按照期望的指令进行操作,其中利用了基于人类反馈的强化学习技术。它将人类纳入训练循环中,采用精心设计的标注策略。ChatGPT 实际上采用类似于 InstructGPT 的技术,在产生高质量、无害的回答(例如拒绝回答侮辱性问题)方面表现出很强的对齐能力。

5.工具操作

       从本质上讲,LLM是基于海量纯文本语料库进行文本生成训练的,因此在那些不适合以文本形式表达的任务上表现不佳(例如数字计算)。此外,它们的能力也受限于预训练数据,例如无法获取最新信息。

       为了解决这些问题,最近提出了一种技术,即利用外部工具来弥补 LLM 的不足。例如,LLM 可以利用计算器进行准确计算, 利用搜索引擎检索未知信息。最近,ChatGPT已经实现 了使用外部插件(现有或新创建的应用程序)的机制,这类似于 LLM 的“眼睛和耳朵”。这种机制可以广泛扩展 LLM 的 能力范围。

       此外,许多其他因素(例如硬件升级)也对 LLM的成功做出了贡献。但是,我们主要讨论在开发 LLM 方面的主要技术方法和关键发现

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/137807.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

平面运动机器人的传感器外参标定

简述 对任意两个传感器进行外参标定可以采用手眼标定算法来完成,但是,传统手眼标定算法对于运动具有一定的要求,可以证明,至少需要两个以上轴角方向不同的旋转运动才可以正确估计出外参旋转,因此,如果使用…

54基于matlab的包络谱分析

基于matlab的包络谱分析,目标信号→希尔伯特变换→得到解析信号→求解析信号的模→得到包络信号→傅里叶变换→得到Hilbert包络谱,包络谱分析能够有效地将这种低频冲击信号进行解调提取。程序已调通,可直接运行。 54matlab包络谱分析信号解调…

​LeetCode解法汇总187. 重复的DNA序列

目录链接: 力扣编程题-解法汇总_分享记录-CSDN博客 GitHub同步刷题项目: https://github.com/September26/java-algorithms 原题链接:力扣(LeetCode)官网 - 全球极客挚爱的技术成长平台 描述: DNA序列 由…

轻量日志管理方案-[EFK]

使用FileBeat进行日志文件的数据收集,并发送到ES进行存储,最后Kibana进行查看展示; 这个应该是最简单,轻量的日志收集方案了。 最总方案为:FileBeatESKibana ; 【Kibana过于强大,感觉可以无限扩展】 文章目…

SpringBoot 全局日期时间格式转化

一、添加注解 在属性上加上注解,对日期进行格式化 import com.fasterxml.jackson.annotation.JsonFormat;JsonFormat(pattern "yyyy-MM-dd HH:mm:ss") private LocalDateTime createTime;二、全局配置 a. 在 WebMvcConfiguration 中扩展 SpringMVC 的消息…

msvcp140_CODECVT_IDS.dll丢失怎么办?msvcp140_CODECVT_IDS.dll丢失5个解决办法详解

首先,我要讲述一下我是如何遇到这个问题的。那时候,我正在打开一个电脑的应用程序,使用软件(ps)进行编程。在打开软件时候,突然发现程序无法正常启动,弹出了一个错误提示框,显示msvc…

Hive 知识点八股文记录 ——(一)特性

Hive通俗的特性 结构化数据文件变为数据库表sql查询功能sql语句转化为MR运行建立在hadoop的数据仓库基础架构使用hadoop的HDFS存储文件实时性较差(应用于海量数据)存储、计算能力容易拓展(源于Hadoop) 支持这些特性的架构 CLI&…

Delphi 12 重返雅典 (RAD Studio 12)

RAD Studio 12 的新功能: 以最新的平台版本为目标! RAD Studio 12 提供对 iOS 17(仅适用于 Delphi)、Android 14 和 macOS Sonoma 的官方支持。RAD Studio 12 还支持 Ubuntu 22 LTS 和 Windows Server 2022。 Delphi 源代码的多…

广州华锐互动:VR互动实训内容编辑器助力教育创新升级

随着科技的飞速发展,教育领域也正在经历一场深刻的变革。其中,虚拟现实(VR)技术为教学活动提供了前所未有的便利和可能性。在诸多的VR应用中,VR互动实训内容编辑器无疑是最具潜力和创新性的一种。广州华锐互动开发的这款编辑器以其独特的功能…

设计模式-解释器模式(Interpreter)

设计模式-解释器模式(Interpreter) 一、解释器模式概述1.1 什么是解释器模式1.2 简单实现解释器模式1.3 使用解释器模式的注意事项 二、解释器模式的用途三、解释器模式实现方式3.1 基于递归下降实现解释器模式3.2 基于LL(1)文法实现解释器模式3.3 基于A…

Java编写简易rabbitmq生产者与消费者

一、前言 开发时经常与其它系统用rabbitmq对接&#xff0c;当需要自测时&#xff0c;还是自己写rabbitmq生产者、消费者自测方便些。 下面总结下不用框架、使用java编写简易rabbitmq的方法。 二、代码 1.导入jar包 (1)如果是maven&#xff0c;那就用 <dependency>&…

百度智能云正式上线Python SDK版本并全面开源!

文章目录 1. SDK的优势2. 千帆SDK&#xff1a;快速落地LLM应用3. 如何快速上手千帆SDK3.1 SDK快速启动3.2 SDK进阶指引3.3 通过Langchain接入千帆SDK 4. 开源社区 百度智能云千帆大模型平台再次升级&#xff01;在原有API基础上&#xff0c;百度智能云正式上线Python SDK&#…

直播会议一体机安卓主板_5G智能会议一体机双屏异显设计

5G直播会议一体机主板是专门为支持音视频输入输出而设计的&#xff0c;内置有安卓13系统&#xff0c;可兼容多种直播和会议软件。该产品可广泛应用于智能会议一体机、便携式直播设备、录播导播、无人机直播以及视频传输等多个领域。 这款主板采用了国产6纳米旗舰芯片紫光展锐T8…

虚幻C++基础 day4

虚幻中的UI 虚幻中的比较常用的UI&#xff1a;Widget Blueprint又称UMG虚幻中的两种布局&#xff1a; 网格布局锚布局 创建Widget Blueprint 网格布局 有点类似Qt中的网格布局&#xff0c;将UI面板进行行列切分Horizontal Box&#xff1a;水平分布Vertical Box&#xff1a;…

机器学习---多分类SVM、支持向量机分类

1. 多分类SVM 1.1 基本思想 Grammer-singer多分类支持向量机的出发点是直接用超平面把样本空间划分成M个区域&#xff0c;其 中每个区域对应一个类别的输入。如下例&#xff0c;用从原点出发的M条射线把平面分成M个区域&#xff0c;下图画 出了M3的情形&#xff1a; 1.2 问题…

【Spring之底层核心架构概念解析】

文章目录 一、BeanDefinition二、BeanDefinitionReader2.1、AnnotatedBeanDefinitionReader2.2、XmlBeanDefinitionReader 五、ClassPathBeanDefinitionScanner六、BeanFactory七、ApplicationContext7.1、AnnotationConfigApplicationContext7.2、ClassPathXmlApplicationCont…

2023年11月PHP测试覆盖率解决方案

【题记&#xff1a;最近进行了ExcelBDD PHP版的开发&#xff0c;查阅了大量资料&#xff0c;发现PHP测试覆盖率解决方案存在不同的历史版本&#xff0c;让我花费了蛮多时间&#xff0c;为了避免后人浪费时间&#xff0c;整理本文&#xff0c;而且网上没有给出Azure DevOps里面P…

jQuery HTML/CSS 参考文档

jQuery HTML/CSS 参考文档 文章目录 应用样式 示例属性方法示例 jQuery HTML/CSS 参考文档 应用样式 addClass( classes ) 方法可用于将定义好的样式表应用于所有匹配的元素上。可以通过空格分隔指定多个类。 示例 以下是一个简单示例&#xff0c;设置了para标签 <p&g…

超详细!Linux内核内存规整详解

1.前言 伙伴系统作为内核最基础的物理页内存分配器&#xff0c;具有高效、实现逻辑简介等优点&#xff0c;其原理页也尽可能降低内存外部碎片产生&#xff0c;但依然无法杜绝碎片问题。外部碎片带来的最大影响就是内存足够&#xff0c;但是却无法满足内存分配需求&#xff0c;如…

docker创建并访问本地前端

docker创建并访问本地前端&#xff0c;直接上命令&#xff1a; 安装nginx镜像&#xff1a; docker pull nginx 查看已安装的nginx&#xff1a; docker images 创建DockerFile文件&#xff0c;直接在当前文件夹种创建 touch Dockerfile 在Dockerfile写入内容&#xff1a; F…