外贸先做网站再开公司/海外推广方法有哪些

外贸先做网站再开公司,海外推广方法有哪些,福永网站建设公司,wordpress主题 voice3、微调(上一部分内容) 4、LLMs的对齐 大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式: 带有反馈的人工…

3、微调(上一部分内容)

4、LLMs的对齐

大型语言模型(LLMs)中的对齐涉及引导模型输出以符合人类预期和偏好,特别是在安全关键或用户面对的应用程序中。本章讨论了实现对齐的三个主要范式:

  • 带有反馈的人工智能强化学习(Reinforcement Learning with Human Feedback, §4.1):使用人类标记的数据作为奖励信号。
  • 带有AI反馈的强化学习(Reinforcement Learning with AI Feedback, §4.2):利用AI生成的反馈来解决可扩展性问题。
  • 直接偏好优化(Direct Preference Optimization, §4.3):直接从成对的人类偏好数据中学习,不需要明确的奖励模型。

每种范式在其追求强健对齐的过程中提供了独特的优点、挑战和权衡。表2简要对比了这些方法及相关技术。

表2: 大型语言模型对齐方法的比较概述(2022-2024)

此表评估了突出的对齐技术在八个指标上的表现:

  • RM1(显式或隐式奖励模型)
  • RM2(点奖励或偏好概率模型)
  • RM3(响应级或令牌级奖励)
  • RM4(正向或负向奖励模型)
  • F(反馈类型:人类或AI)
  • RL1(参考模型或无参考模型的RL)
  • RL2(在线策略或离线策略RL)
  • O(在线/迭代或离线/非迭代优化)

通过对这些指标的评估,可以帮助研究人员和实践者根据特定需求选择最适合的对齐方法。这些方法各自具有不同的特点,可以根据应用场景的不同要求进行调整和应用。

4.1 带有人类反馈的强化学习

监督微调(SFT)[45]一直是引导大型语言模型(LLMs)遵循人类指令的基础技术。然而,在纯监督场景中,注释数据的多样性和质量可能是不均衡的,而且监督模型捕捉更细微或适应性更强的人类偏好的能力往往有限。因此,提出了基于强化学习(RL)的微调来解决这些不足。在RL方法中,基于人类反馈的强化学习(RLHF)[104]是最早且最具影响力的基于RL的训练后对齐方法之一。

如图8所示,RLHF首先以偏好标签或奖励信号的形式收集人类反馈,然后使用这些信息训练一个奖励模型。在这个奖励模型的指导下,策略被迭代地调整以更好地匹配人类偏好。与SFT相比,RLHF包含连续的、由偏好驱动的更新,从而带来更强的对齐结果。值得注意的是,现代LLM如GPT-4 [9]、Claude [27]和Gemini [76]都从这些机制中受益,展示了在指令跟随、事实一致性以及用户相关性方面的改进。下面,我们将讨论RLHF的主要组成部分,包括反馈机制、奖励建模和策略学习策略。

这张图展示了基于人类反馈的强化学习(Reinforcement Learning from Human Feedback, RLHF)的工作流程,旨在通过训练过程使大型语言模型(LLMs)与人类偏好对齐。图中分为两个主要阶段:奖励训练(Reward Training)和策略训练(Policy Training)。以下是详细解释:

图8: 基于人类反馈的强化学习(RLHF)工作流程

a) 奖励训练 (Reward Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给人类标注者(Human Labeler)进行评估。
  3. 人类标注者 (Human Labeler):

    • 人类标注者对策略模型生成的续篇进行评估,并给出标签(Labels)。
  4. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据人类标注者的标签计算奖励(Reward)。
    • 奖励模型通过调整权重来优化其预测,以更好地匹配人类偏好。
  5. 损失函数 (Loss Function):

    • 损失函数用于衡量奖励模型的预测与人类标注者提供的标签之间的差异。
  6. 更新权重 (Update Weights):

    • 根据损失函数的值,奖励模型的权重被更新,以减少损失并提高预测准确性。
b) 策略训练 (Policy Training)
  1. 输入数据:

    • 输入数据包括上下文(Contexts)和续篇(Continuations),这些数据被提供给策略模型(Policy Model)。
  2. 策略模型 (Policy Model):

    • 策略模型根据输入的上下文生成续篇。
    • 生成的续篇被传递给奖励模型进行评估。
  3. 奖励模型 (Reward Model):

    • 奖励模型接收上下文和续篇,并根据之前训练得到的权重计算奖励(Reward)。
  4. 损失函数 (Loss Function):

    • 损失函数用于衡量策略模型生成的续篇与奖励模型预测的奖励之间的差异。
  5. 更新权重 (Update Weights):

    • 根据损失函数的值,策略模型的权重被更新,以减少损失并提高生成续篇的质量。

总结

  • 奖励训练 (Reward Training):

    • 通过人类标注者的反馈训练奖励模型,使其能够准确地预测人类偏好。
    • 奖励模型的权重通过反向传播算法进行更新,以最小化损失函数。
  • 策略训练 (Policy Training):

    • 使用训练好的奖励模型来评估策略模型生成的续篇。
    • 策略模型的权重通过反向传播算法进行更新,以最小化损失函数,从而生成更符合人类偏好的续篇。

通过这两个阶段的迭代训练,最终的策略模型能够生成更高质量、更符合人类偏好的续篇。

4.1.1 RLHF中的反馈机制

人类反馈是RLHF的核心,它向奖励模型提供关于用户偏好的信息,并指导策略更新。本小节采用文献[124]中的分类法来对常见的人类反馈形式进行分类。表3展示了这些反馈类型在粒度、参与水平和明确性等方面的差异。每种反馈模式对模型优化的不同方面有所贡献,提供了不同层次的可解释性、可扩展性和噪声容忍度。

表3: 人类反馈类型概览

该表可能根据不同的维度对反馈类型进行了分类,例如:

  • 粒度:反馈可以针对整个输出(粗粒度),也可以针对特定部分或步骤(细粒度)。
  • 参与水平:这指的是人类参与者在提供反馈时的深度,从简单的二元判断到详细的解释说明。
  • 明确性:指反馈提供的信息是否直接明确,还是需要模型通过推理或其他方式去理解。

通过这种分类,研究人员和工程师可以根据具体的应用需求选择最适合的反馈模式,以优化模型的表现并提高其与人类偏好的一致性。这种方法使得基于人类反馈的强化学习成为一种强大的工具,用于提升LLMs在各种任务中的表现。

主要反馈(Primary Feedback)

这一类别包括最直接塑造RLHF中奖励模型的反馈类型。例如,Critique [125] 侧重于对代理行为的人类明确评估,通常通过二进制或多标签注释来细化以减少噪声。Comparisons [126] 允许评估者比较多个输出或轨迹;虽然更大的选择集可以提供更丰富的信号,但它们也可能导致因果混淆。Inter-Temporal Feedback [127] 通过在不同时间步骤提供判断来细化轨迹评估,而Proxy Rewards [128] 包含指导模型朝用户定义目标前进的近似奖励函数。Social Behavior [129] 利用隐式线索(如面部表情)使代理目标与用户情感一致。Improvements [130] 强调实时人类干预以进行策略的增量细化。最后,Natural Language Feedback [131] 利用文本信息传达偏好和改进建议。

补充反馈(Supplementary Feedback)

除了主要反馈之外,还有两类进一步加强奖励建模过程。紧急停止(E-stops)[132]允许人类通过停止代理的轨迹而不建议替代方案来进行干预。这种反馈的特点是隐式参与,并且专注于防止不期望的行为。相比之下,重要性标签[133]指出特定观察对于实现目标的重要性,提供了不会直接改变行为的明确反馈。这种反馈因上下文而异,作为补充输入,强化了奖励模型的整体学习过程。

特定表示反馈(Representation-Specific Feedback)

某些类型的反馈主要是增强表示学习而不是直接塑造奖励函数。Feature Traces [134] 提示人类操作员演示给定特征中的单调变化,从而实现特征集的动态扩展。Similarity Queries [135] 比较三元组轨迹,通过轨迹空间中的成对距离引导表示学习。通过利用这些特定表示的反馈形式,RLHF可以在新任务和上下文中实现更强大的泛化能力。

4.1.2 强化学习与人类反馈(RLHF)的奖励模型

  • 距离函数:最近的研究集中在考虑潜在转换(如潜在塑形)的奖励评估距离函数上。例如,EPIC [140] 测量不同转换下的奖励函数等价性,而DARD [141] 改进了规范处理以确保评估基于可行转换。类似EPIC的距离[142]通过允许规范处理、规范化和度量函数的变化来推广EPIC的方法论,STARC [143] 在保持EPIC理论特性的同时提供了额外的灵活性。

  • 视觉和人工检查:其他方法依赖于可解释性和精心策划的数据集来衡量所学奖励函数的有效性。PRFI [144] 使用预处理步骤简化奖励函数同时保留等效性,从而增强其透明度。同时,CONVEXDA 和 REWARDFUSION [145] 提出的数据集旨在测试奖励模型如何一致地响应提示中的语义变化。这些技术共同促进了奖励函数更可靠的评估,强化了大型语言模型与人类偏好的一致性。

4.1.3 RLHF的策略学习

如图9所示,RLHF的策略学习包括通过人类反馈在在线和离线环境中优化策略。

  • 在线学习:在在线RLHF中,系统收集关于新生成模型轨迹的人类实时偏好。像DPS [146]这样的算法使用贝叶斯更新来管理竞争过程,而PPS和PEPS [147]将动态规划和多臂老虎机的想法结合起来以细化策略行为。在LPbRL [148]中,特征嵌入捕捉不断演变的奖励结构,PbOP [149] 集成最小二乘估计用于过渡动态和偏好信号。最近,PARL [150] 通过将反馈获取视为策略优化不可或缺的一部分来提高数据收集效率。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/72400.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

热key探测技术架构设计与实践

参考: 得物热点探测技术架构设计与实践 Redis数据倾斜与JD开源hotkey源码分析揭秘 京东热点检测 HotKey 学习笔记 hotkey: 京东App后台中间件,毫秒级探测热点数据,毫秒级推送至服务器集群内存,大幅降低热key对数据层查询压力 …

Windows 环境图形化安装 Oracle 23ai

文章目录 Windows 环境安装23ai下载Oracle 23ai安装包安装安装详细图形界面连接Oracle 23ai 安装过程中遇到的错误安装过其他版本数据库,设置了ORACLE_HOME或 TNS_ADMIN解决方法 无法访问Windows Installer Serviece (error 1719)解决方法 其他注意 参考&#xff1a…

基于SpringBoot3+Druid数据库连接池与外部PostgreSQL的Kubernetes Pod YAML全解析

说明 一个基于Spring Boot 3 Druid 外部PostgreSQL的Kubernetes Pod YAML详细解析,包含最佳实践和关键配置说明: YAML apiVersion: apps/v1 kind: Deployment metadata:name: springboot-applabels:app: springboot-app spec:replicas: 2selector:ma…

PyTorch 深度学习实战(14):Deep Deterministic Policy Gradient (DDPG) 算法

在上一篇文章中,我们介绍了 Proximal Policy Optimization (PPO) 算法,并使用它解决了 CartPole 问题。本文将深入探讨 Deep Deterministic Policy Gradient (DDPG) 算法,这是一种用于连续动作空间的强化学习算法。我们将使用 PyTorch 实现 D…

【Agent实战】货物上架位置推荐助手(RAG方式+结构化prompt(CoT)+API工具结合ChatGPT4o能力Agent项目实践)

本文原创作者:姚瑞南 AI-agent 大模型运营专家,先后任职于美团、猎聘等中大厂AI训练专家和智能运营专家岗;多年人工智能行业智能产品运营及大模型落地经验,拥有AI外呼方向国家专利与PMP项目管理证书。(转载需经授权) 目录 结论 效果图示 1.prompt 2. API工具封…

HarmonyOS NEXT开发进阶(十二):build-profile.json5 文件解析

文章目录 一、前言二、Hvigor脚本文件三、任务与任务依赖图四、多模块管理4.1 静态配置模块 五、分模块编译六、配置多目标产物七、配置APP多目标构建产物八、定义 product 中包含的 target九、拓展阅读 一、前言 编译构建工具DevEco Hvigor(以下简称Hvigor&#x…

基于SSM + JSP 的图书商城系统

基于SSM的图书商城 网上书城、图书销售系统、图书销售平台 |Java|SSM|HTML|JSP| 项目采用技术: ①:开发环境:IDEA、JDK1.8、Maven、Tomcat ②:技术栈:Java、…

色板在数据可视化中的创新应用

色板在数据可视化中的创新应用:基于色彩感知理论的优化实践 引言 在数据可视化领域,色彩编码系统的设计已成为决定信息传递效能的核心要素。根据《Nature》期刊2024年发布的视觉认知研究,人类大脑对色彩的识别速度比形状快40%,色…

K8S学习之基础二十七:k8s中daemonset控制器

k8s中DaemonSet控制器 ​ DaemonSet控制器确保k8s集群中,所有节点都运行一个相同的pod,当node节点增加时,新节点也会自动创建一个pod,当node节点从集群移除,对应的pod也会自动删除。删除DaemonSet也会删除创建的pod。…

PyTorch 系列教程:使用CNN实现图像分类

图像分类是计算机视觉领域的一项基本任务,也是深度学习技术的一个常见应用。近年来,卷积神经网络(cnn)和PyTorch库的结合由于其易用性和鲁棒性已经成为执行图像分类的流行选择。 理解卷积神经网络(cnn) 卷…

Spring Cloud Stream - 构建高可靠消息驱动与事件溯源架构

一、引言 在分布式系统中,传统的 REST 调用模式往往导致耦合,难以满足高并发和异步解耦的需求。消息驱动架构(EDA, Event-Driven Architecture)通过异步通信、事件溯源等模式,提高了系统的扩展性与可观测性。 作为 S…

王者荣耀道具页面爬虫(json格式数据)

首先这个和英雄页面是不一样的,英雄页面的图片链接是直接放在源代码里面的,直接就可以请求到,但是这个源代码里面是没有的 虽然在检查页面能够搜索到,但是应该是动态加载的,源码中搜不到该链接 然后就去看看是不是某…

【一起来学kubernetes】12、k8s中的Endpoint详解

一、Endpoint的定义与作用二、Endpoint的创建与管理三、Endpoint的查看与组成四、EndpointSlice五、Endpoint的使用场景六、Endpoint与Service的关系1、定义与功能2、创建与管理3、关系与交互4、使用场景与特点 七、Endpoint的kubectl命令1. 查看Endpoint2. 创建Endpoint3. 编辑…

C# Enumerable类 之 集合操作

总目录 前言 在 C# 中,System.Linq.Enumerable 类是 LINQ(Language Integrated Query)的核心组成部分,它提供了一系列静态方法,用于操作实现了 IEnumerable 接口的集合。通过这些方法,我们可以轻松地对集合…

51c自动驾驶~合集54

我自己的原文哦~ https://blog.51cto.com/whaosoft/13517811 #Chameleon 快慢双系统!清华&博世最新:无需训练即可解决复杂道路拓扑 在自动驾驶技术中,车道拓扑提取是实现无地图导航的核心任务之一。它要求系统不仅能检测出车道和交…

Spring Cloud Eureka - 高可用服务注册与发现解决方案

在微服务架构中,服务注册与发现是确保系统动态扩展和高效通信的关键。Eureka 作为 Spring Cloud 生态的核心组件,不仅提供去中心化的服务治理能力,还通过自我保护、健康检查等机制提升系统的稳定性,使其成为微服务架构中的重要支撑…

Unity屏幕适配——立项时设置

项目类型:2D游戏、竖屏、URP 其他类型,部分原理类似。 1、确定设计分辨率:750*1334 为什么是它? 因为它是 iphone8 的尺寸,宽高比适中。 方便后续适配到真机的 “更长屏” 或 “更宽屏” 2、在场景…

深度学习中LayerNorm与RMSNorm对比

LayerNorm不同于BatchNorm,其与batch大小无关,均值和方差 在 每个样本的特征维度 C 内计算, 适用于 变长输入(如 NLP 任务中的 Transformer) 详细的BatchNorm在之前的一篇文章进行了详细的介绍:深度学习中B…

使用WireShark解密https流量

概述 https协议是在http协议的基础上,使用TLS协议对http数据进行了加密,使得网络通信更加安全。一般情况下,使用WireShark抓取的https流量,数据都是加密的,无法直接查看。但是可以通过以下两种方法,解密抓…

Linux命令基础,创建,输入,输出,查看,查询

什么是命令、命令行 命令行:即:Linux终端(Terminal),是一种命令提示符页面。以纯“字符”的形式操作操作系统,可以使用各种字符化命令对操作系统发出操作指令。 命令:即Linux程序。一个命令就…