一点思考｜漫谈 AI 中的「反馈」机制

news/2025/4/9 7:05:53/文章来源:https://blog.csdn.net/qq_36332660/article/details/132335499

前言：生物世界中的正负反馈机制能够促进生物进化，为生物圈的良好生态提供保障。本文探究反馈机制在深度神经网络中的体现，由于笔者知识浅薄，故仅列举个人认知范围内的以下几种「反馈」示例。（本文初稿诞生于2022年12月12日）

AI中的反馈机制

反向传播
生成对抗网络（GAN）
ChatGPT 中的 RLHF
Teacher-Student Model

反向传播

反向传播（Back Propagation，BP）带来梯度更新，然后是神经网络的参数更新，提高神经网络的拟合能力。

变体：BPTT（随时间反向传播）

生成对抗网络（GAN）

GAN由生成器+判别器构成，判别器输出的结果可作为生成器生成效果的反馈，提高生成器的生成性能；而随着生成器能力的提升，其输出与真实数据又会共同喂给判别器，提高判别器的判别能力，二者在彼此的成长中相得益彰，不断精进。

ChatGPT 中的 RLHF

ChatGPT 使用的神经网络是 InstructGPT，其背后基于人工反馈的强化学习方法的核心思想是：在训练过程中，生成结果由 Human Evaluation 纠正，以确保其生成的文本积极正向，不含性别歧视等负面内容，即 RLHF（Reinforcement Learning from Human Feedback）：使用强化学习的方法，利用人类反馈信号直接优化语言模型。这就涉及到 Human-in-the-Loop（人机回圈）的概念。根据此篇文章，人类在机器的塑造过程中发挥重要作用，促进机器的发展。

Teacher-Student Model

Teacher model 的生成结果可以作为 student model 的评判，提升 student model 的性能。

后记：没有反馈，就没有进步。

参考资料

神经网络算法详解 04：反馈神经网络（Hopfield、BAM、BM、RBM）_datamonday的博客-CSDN博客
智能产品设计中的Human-in-the-Loop - 知乎 (zhihu.com)
以反馈控制“对付”智能时代不确定性----中国科学院 (cas.cn)
解读 ChatGPT 背后基于人工反馈的强化学习(RLHF)的方法 - 知乎 (zhihu.com)

本文来自互联网用户投稿，该文观点仅代表作者本人，不代表本站立场。本站仅提供信息存储空间服务，不拥有所有权，不承担相关法律责任。如若转载，请注明出处：http://www.mzph.cn/news/61410.shtml

如若内容造成侵权/违法违规/事实不符，请联系多彩编程网进行投诉反馈email:809451989@qq.com，一经查实，立即删除！

相关文章

Krahets 笔面试精选 88 题——40. 组合总和 II

Krahets 笔面试精选 88 题——40. 组合总和 II

使用深度搜索的方法： 由于题目说候选数组中的每个数字在每个组合只能出现一次，所以，为了避免重复，在开始之前对候选数组进行升序排序，这样优先选择小的数，如果当前的数都小于目标值，则后面的数就…

阅读更多...

$find ./* -type d -empty -exec touch {}/.gitkeep \；$

find ./* -type d -empty -exec touch {}/.gitkeep \；

这是一个 Linux 下的 find 命令，用于在所有空目录中创建 .gitkeep 文件。让我们来分解一下这个命令做了什么：- find ./* ： 在当前目录及其子目录中查找。 -type d ： 只查找目录类型的文件。 -empty ： 只找出那些空的目…

阅读更多...

C# 中操作集合的方法

C# 中操作集合的方法

Add：向集合中添加元素。 List<int> numbers new List<int>(){ 1, 2, 3 }; numbers.Add(4); // numbers 现在为 { 1, 2, 3, 4 }Remove：从集合中移除指定的元素。 List<int> numbers new List<int>(){ 1, 2, 3, 4 }; numbers.Re…

阅读更多...

（学习笔记-调度算法）磁盘调度算法

（学习笔记-调度算法）磁盘调度算法

磁盘结构： 常见的机械磁盘是上图左边的样子，中间圆的部分是磁盘的盘片，一般会有多个盘片，每个盘面都有自己的磁头。右边的图就是一个盘片的结构，盘片中的每一层分为多个磁道，每个磁道分为多个扇区&#xff…

阅读更多...

MySQL从入门到精通【进阶篇】之主从复制详解

MySQL从入门到精通【进阶篇】之主从复制详解

文章目录 0.前言1. 主从复制简介2. 主从复制的工作流程主从复制过程中的日志文件作用（Binary Log）和中继日志（Relay Log） 3. MySQL主从复制的配置4. 参考资料 0.前言 MySQL的主从复制和读写分离是数据库领域的基本概念&#xff0…

阅读更多...

Axios中使用CancelToken取消请求

Axios中使用CancelToken取消请求

CancelToken 是一个用于取消请求的机制。它允许在请求还未完成时，通过取消请求来终止请求的发送。这在需要在某些情况下中止正在进行的请求时非常有用，比如文件上传时取消上传等。以下是使用 CancelToken 的一般步骤： 首先，导入…

阅读更多...

【LeetCode算法系列题解】第31~35题

【LeetCode算法系列题解】第31~35题

CONTENTS LeetCode 31. 下一个排列（中等）LeetCode 32. 最长有效括号（困难）LeetCode 33. 搜索旋转排序数组（中等）LeetCode 34. 在排序数组中查找元素的第一个和最后一个位置（中等）Lee…

阅读更多...

前端vue2、vue3去掉url路由“ # ”号——nginx配置

前端vue2、vue3去掉url路由“ # ”号——nginx配置

文章目录 ⭐前言⭐vue2中router默认出现#号💖在vue2项目中去掉💖在vue3项目中去掉 ⭐vue打包 assetsPublicPath base 为绝对路径 /💖vue2 配置 assetsPublicPath💖vue3 配置 base💖验证 ⭐nginx 配置💖 使用…

阅读更多...

【第二季】【SpringBoot+Vue】前后端分离项目实战相关资料

【第二季】【SpringBoot+Vue】前后端分离项目实战相关资料

免费资料资源名称资源访问地址视频地址b站源码gitee笔记笔记

阅读更多...

Shell编程之流程控制

Shell编程之流程控制

目录 if判断 case语句 for循环 while循环 if判断语法： if [ 条件判断表达式 ] then 程序 elif [ 条件判断表达式 ] then 程序 else 程序 fi 注意： [ 条件判断表达式 ]，中括号和条件判断表达式之间必须有空格。if，elif…

阅读更多...

SAP FI之定义财务年和财务年度变式（Fiscal Year Variants）

SAP FI之定义财务年和财务年度变式（Fiscal Year Variants）

目录前言一、财务年度/财务年度变式二、使用步骤 1.配置步骤前言本文主要介绍SAP会计年度和SAP会计年度变式。一、财务年度/财务年度变式财务年度可以具有与日历年相同的期间，也可以不同。中国财政年度从1月到12月，称为历年制，有…

阅读更多...

Caffine和Guava的refreshAfterWrite的异同

Caffine和Guava的refreshAfterWrite的异同

背景: guava和caffine的refreshAfterWrite方法在用于本地缓存的场景是非常常用的，本文通过例子列举下caffine的refreshAfterWrite方法和guava的refreshAfterWrite的相同点和不同点相同点/不同点： 以下都是使用keyXYZ作为例子场景1：一开…

阅读更多...

Matlab 基本教程

Matlab 基本教程

1 清空环境变量及命令 clear all % 清除Workspace 中的所有变量 clc % 清除Command Windows 中的所有命令 2 变量命令规则 （1）变量名长度不超过63位 （2）变量名以字母开头， 可以由字母、数字和下划线…

阅读更多...

thinkphp6 入门（1）--安装、路由规则、多应用模式

thinkphp6 入门（1）--安装、路由规则、多应用模式

一、安装thinkphp6 具体参考官方文档安装 ThinkPHP6.0完全开发手册看云下面仅列举重要步骤 ThinkPHP6.0的环境要求如下： PHP > 7.2.5 1. 安装Composer 2. 安装稳定版thinkphp 如果你是第一次安装的话，在命令行下面，切换到你的WE…

阅读更多...

目标检测笔记(十二)：如何通过界面化操作YOLOv5完成数据集的自动标注

目标检测笔记(十二)：如何通过界面化操作YOLOv5完成数据集的自动标注

文章目录一、意义二、修改源码获取三、自动标注前期准备四、开始自动标注五、可视化标注效果六、XML转换TXT 一、意义通过界面化操作YOLOv5完成数据集的自动标注的意义在于简化数据标注的流程，提高标注的效率和准确性。传统的数据集标注通常需要手动绘制边界框…

阅读更多...

接口优化通用方案

接口优化通用方案

目录批量异步、回调缓存预取池化并行锁粒度索引大事务海量数据批量批量思想：批量操作数据库优化前： //for循环单笔入库 for(TransDetail detail:transDetailList){ insert(detail); } 优化后： batchInsert(transDetailList); 异步、回…

阅读更多...

C++：string的[ ]，at，push_back

C++：string的[ ]，at，push_back

1.[ ]运算符和at函数返回的是string的当前字符串的合法的索引位置的引用，所谓的合法是指小于size的索引 #include <string> #include <iostream>using namespace std;int main() {string str = "hello";cout<<"str:"<<str<…

阅读更多...

力扣真题：无重复字符的最长子串（三种方法）

力扣真题：无重复字符的最长子串（三种方法）

这道题我一开始使用了Set加类似滑动窗口的方法，最后解得出来，但效率不尽人意，最后经过几次修改，最终用到是滑动窗口指针数组的方式讲效果达到最优，超过近99%的代码。 1、第一版 class Solution {public int lengthOf…

阅读更多...

TCP连接分析：探寻TCP的三次握手

TCP连接分析：探寻TCP的三次握手

文章目录一、实验背景与目的二、实验需求三、实验解法1. 预先抓包监测使用Wireshark工具2.进行TCP三次握手，访问www.baidu.com3.分析Wireshark捕获的TCP包摘要： 本实验使用Wireshark工具，通过抓包监测和分析，深入研究了与百度服…

阅读更多...

代码随想录笔记--链表篇

代码随想录笔记--链表篇

目录 1--虚拟头节点的使用 2--设计链表 3--反转链表 4--两两交换链表中的节点 5--快慢指针 5-1--删除链表倒数第N个节点 5-2--环形链表 5-3--环形链表II 1--虚拟头节点的使用在链表相关题目中，常新定义一个虚拟头结点 dummynode 来指向原链表的头结点&…

阅读更多...

最新文章