13.ChatGPT 大模型训练核心技术

13.ChatGPT 大模型训练核心技术

diannao/2025/4/26 7:32:04/文章来源:https://blog.csdn.net/YPeng_Gao/article/details/139690988

ChatGPT 大模型训练核心技术

从 GPT-3 到 ChatGPT 的大模型训练技术演进

请添加图片描述

基于RLHF训练大模型的三阶段

• Domain Specific Pre-Training: Fine-tune a pre-trained LLM on raw text with a Causal Language Modelling Objective.
• Supervised fine-tuning: Fine-tune the domain-specific LLM on task-specific as well as domain-specific (prompt/instruction, response) pairs.
• RLHF
- – Reward model training: Training a language model to classify responses as good or bad (thumbs up, thumbs down)
- – RLHF fine-tuning: Using the reward model training on (prompt, good_response, bad_response) data labeled by human experts to align the responses on the LLM

请添加图片描述

阶段一：万亿级 Token 预训练语言模型

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

阶段二：有监督指令微调（SFT）语言模型

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

请添加图片描述

阶段三：使用 RLHF 实现人类价值观对齐（Alignment）

请添加图片描述

请添加图片描述

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/diannao/27560.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

外网访问公司内网服务器？

外网访问公司内网服务器？

【天联】组网天联可以解决不同地区电脑与电脑、设备与设备、电脑与设备之间的信息远程通信问题。在全国各主要节点部署加速服务器，实现在低带宽、跨运营商的网络环境下高速访问；这为公司内网服务器提供了一个可行的外网访问解决方案。在现代办公环境中…

阅读更多...

图书管理系统的要点和难点以及具体应用场景

图书管理系统的要点和难点以及具体应用场景

图书管理系统是一个集成了管理科学、系统科学、运筹学、统计学和计算机科学等学科知识的综合性系统。该系统主要用于图书馆或书店等机构的图书资源管理，通过收集、传递、加工、保存、维护和使用图书信息，帮助图书馆实现其规划目标，提高管理效率。以下是关于图书管理系统的详…

阅读更多...

CANoe连接Option Scope使用方法

CANoe连接Option Scope使用方法

系列文章目录文章目录系列文章目录前言一、前提条件二、CANoe配置三、PicoScope接线四、CANoe捕捉报文五、眼图功能前言本文档主要介绍如何使用CANoe Option .Scope捕获CAN总线上的物理波形，并利用眼图进行分析。一、前提条件使用CANoe Option .Scope，需要具备以下条件…

阅读更多...

AI绘画入门教程（非常详细）从零基础入门到精通Midjourney提示词，咒语

AI绘画入门教程（非常详细）从零基础入门到精通Midjourney提示词，咒语

Microorganisms infiltrating through brain-machine interfaces --v 6.0 Microorganisms infiltrating through brain-machine interfaces ,redpupil --v 6.0 Microorganisms infiltrating through brain-machine interfaces,billion girls dream --v 6.0 --niji 6 “动漫风”…

阅读更多...

Qt信号槽的回调机制

Qt信号槽的回调机制

问：Qt强大的地方在哪里？ 答：跨平台、信号槽。。。问：信号槽是什么？ 答：回调函数问：怎么个回调法子答：。。。成果信号槽本身实现过程是有些复杂的，所以本人参考…

阅读更多...

50【Aseprite 作图】模糊工具笔刷

50【Aseprite 作图】模糊工具笔刷

1 模糊工具 2 笔刷然后选中后 Ctrl B，就变成笔刷了可以按住shift ，像画一条线一样或者用矩形、圆形工具、油漆桶工具在上方可以选择笔刷的不同形式，如果是“图案与来源对齐”，就是来源不变，笔刷不会覆盖之前…

阅读更多...

网安要求关闭所有系统标签页后，自动去除登录人信息（包括直接关闭整个浏览器）

网安要求关闭所有系统标签页后，自动去除登录人信息（包括直接关闭整个浏览器）

暂时没找到什么优美得解决办法，如遇到，请留言，谢谢浏览器没有关闭事件，只有在关闭时会调用beforeunload，unload，但是再刷新时会调用beforeunload，unload，onload 因此关闭再打开与刷新…

阅读更多...

每日5题Day24 - LeetCode 116 - 120

每日5题Day24 - LeetCode 116 - 120

每一步向前都是向自己的梦想更近一步，坚持不懈，勇往直前！ 第一题：116. 填充每个节点的下一个右侧节点指针 - 力扣（LeetCode） /* // Definition for a Node. class Node {public int val;public Node left;…

阅读更多...

LeetCode | 171.Excel表列序号

LeetCode | 171.Excel表列序号

这道题涉及到字符串和进制转换，首先我们先创建一个A-Z到1-26的map映射，方便我们后续遍历字符串转换，然后对字符串从后往前遍历，依次加上对应权重，注意越往前的权重越大，要记得对应乘上26的对应方数 class …

阅读更多...

[Day 10] 區塊鏈與人工智能的聯動應用：理論、技術與實踐

[Day 10] 區塊鏈與人工智能的聯動應用：理論、技術與實踐

AI在各行業的應用實例人工智能（AI）作為當今最具影響力的技術之一，已經在各行業中展現出廣泛的應用前景。從金融到醫療、零售到製造，AI正在改變各行業的運營模式、提升效率、降低成本並創造新的機會。本文將深入探討AI在幾個主要…

阅读更多...

Nginx 搭建 lnmp

Nginx 搭建 lnmp

一.编译安装Nginx 1.新建用户前期准备官网下载nginx安装包 https://nginx.org/en/download.html yum -y install gcc pcre-devel openssl-devel zlib-devel openssl openssl-devel #安装依赖包 useradd -M -s /sbin/nologin nginx #新建nginx用户便于管理 2.切换到/opt…

阅读更多...

自动控制理论---线性时不变系统的单位脉冲响应

自动控制理论---线性时不变系统的单位脉冲响应

1、实验设备 PC计算机1台，MATLAB软件1套。 2.实验目的： 学习并理解线性时不变系统的单位脉冲响应的计算方法。掌握MATLAB编程，计算整个系统的单位脉冲响应。 3.实验原理说明： 单位脉冲响应是指在输入信号为单位脉冲序列时&am…

阅读更多...

酷开科技丨酷开系统大屏游戏新体验，夏日宅家娱乐新方案

酷开科技丨酷开系统大屏游戏新体验，夏日宅家娱乐新方案

随着夏日的临近，人们开始寻找各种方式来打发炎热天气中的空闲时间。不论是与朋友们聚会、追剧，还是与队友们一起沉浸在游戏中，酷开科技都能为你提供好的解决方案。如果你也渴望在家中享受激情四溢的游戏对战，那么酷开系统将是你的…

阅读更多...

[Java基本语法] 继承与多态

[Java基本语法] 继承与多态

🌸个人主页:https://blog.csdn.net/2301_80050796?spm1000.2115.3001.5343 🏵️热门专栏:🍕 Collection与数据结构 (92平均质量分)https://blog.csdn.net/2301_80050796/category_12621348.html?spm1001.2014.3001.5482 🧀线程与…

阅读更多...

【LeetCode:2786. 访问数组中的位置使分数最大 + 递归 + 记忆化缓存 + dp】

【LeetCode:2786. 访问数组中的位置使分数最大 + 递归 + 记忆化缓存 + dp】

🚀 算法题 🚀 🌲 算法刷题专栏 | 面试必备算法 | 面试高频算法 🍀 🌲 越难的东西,越要努力坚持，因为它具有很高的价值，算法就是这样✨ 🌲 作者简介：硕风和炜，…

阅读更多...

家用RJ45水晶头可以用在工业互联网中?

家用RJ45水晶头可以用在工业互联网中?

工业互联网作为智能制造的核心组成部分，已经在工业领域快速发展。在建立连接不同设备和系统的复杂网络中，网络设备和连接器的选择变得至关重要。其中，普遍使用的RJ45水晶头和网线在家庭和小型商业网络中被广泛采用，但是否适用于工…

阅读更多...

Flink作业执行之 3.StreamGraph

Flink作业执行之 3.StreamGraph

Flink任务如何跑起来之 3.StreamGraph 1. StreamGraphGenerator 在前文了解Transformation和StreamOperator后。接下来Transformation将转换成StreamGraph，即作业的逻辑拓扑结构。在env.execute()方法中调用getStreamGraph方法生成StreamGraph实例。StreamGraph…

阅读更多...

OPPO-HR面笔记

OPPO-HR面笔记

HR面自我介绍： 尊敬的面试官，您好！非常荣幸能够拥有这次机会。我叫周俊，来自西南大学信息管理与信息系统专业，目前是一名准大三学生。： 第一，在自主学习能力方面，我每日都在Android…

阅读更多...

如何在 ASP.NET Core Web Api 项目中应用 NLog 写日志？

如何在 ASP.NET Core Web Api 项目中应用 NLog 写日志？

前言昨天分享了在 .NET Core Console 项目中应用 NLog 写日志的详细例子，有几位小伙伴私信说 ASP.NET Core Web Api 项目中无法使用，其实在 ASP.NET Core Web Api 项目中应用 NLog 写日志，跟 .NET Core Console 项目是有些不一样的&#xf…

阅读更多...

如何确保数据跨域交换安全、合规、可追溯性？

如何确保数据跨域交换安全、合规、可追溯性？

数据跨域交换是指在不同的组织、系统或网络之间进行数据的传输和共享。随着数字经济的发展，数据跨域交换在促进数据流通和创新融合方面发挥着重要作用。然而，这一过程也面临着诸多挑战和风险，例如数据安全、合规性、完整性以及责任不清晰等问…

阅读更多...

最新文章