一点思考|漫谈 AI 中的「反馈」机制

前言:生物世界中的正负反馈机制能够促进生物进化,为生物圈的良好生态提供保障。本文探究反馈机制在深度神经网络中的体现,由于笔者知识浅薄,故仅列举个人认知范围内的以下几种「反馈」示例。(本文初稿诞生于2022年12月12日)

AI中的反馈机制

  • 反向传播
  • 生成对抗网络(GAN)
  • ChatGPT 中的 RLHF
  • Teacher-Student Model


反向传播

反向传播(Back Propagation,BP)带来梯度更新,然后是神经网络的参数更新,提高神经网络的拟合能力。

变体:BPTT(随时间反向传播)

生成对抗网络(GAN)

GAN由生成器+判别器构成,判别器输出的结果可作为生成器生成效果的反馈,提高生成器的生成性能;而随着生成器能力的提升,其输出与真实数据又会共同喂给判别器,提高判别器的判别能力,二者在彼此的成长中相得益彰,不断精进。

ChatGPT 中的 RLHF

ChatGPT 使用的神经网络是 InstructGPT,其背后基于人工反馈的强化学习方法的核心思想是:在训练过程中,生成结果由 Human Evaluation 纠正,以确保其生成的文本积极正向,不含性别歧视等负面内容,即 RLHF(Reinforcement Learning from Human Feedback):使用强化学习的方法,利用人类反馈信号直接优化语言模型。这就涉及到 Human-in-the-Loop(人机回圈)的概念。根据此篇文章,人类在机器的塑造过程中发挥重要作用,促进机器的发展。

Teacher-Student Model

Teacher model 的生成结果可以作为 student model 的评判,提升 student model 的性能。

后记:没有反馈,就没有进步。


参考资料

  1. 神经网络算法详解 04:反馈神经网络(Hopfield、BAM、BM、RBM)_datamonday的博客-CSDN博客
  2. 智能产品设计中的Human-in-the-Loop - 知乎 (zhihu.com)
  3. 以反馈控制“对付”智能时代不确定性----中国科学院 (cas.cn)
  4. 解读 ChatGPT 背后基于人工反馈的强化学习(RLHF)的方法 - 知乎 (zhihu.com)

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/61410.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

Krahets 笔面试精选 88 题——40. 组合总和 II

使用深度搜索的方法: 由于题目说候选数组中的每个数字在每个组合只能出现一次,所以,为了避免重复,在开始之前对候选数组进行升序排序,这样优先选择小的数,如果当前的数都小于目标值,则后面的数就…

find ./* -type d -empty -exec touch {}/.gitkeep \;

这是一个 Linux 下的 find 命令,用于在所有空目录中创建 .gitkeep 文件。让我们来分解一下这个命令做了什么:- find ./* : 在当前目录及其子目录中查找。 -type d : 只查找目录类型的文件。 -empty : 只找出那些空的目…

C# 中操作集合的方法

Add&#xff1a;向集合中添加元素。 List<int> numbers new List<int>(){ 1, 2, 3 }; numbers.Add(4); // numbers 现在为 { 1, 2, 3, 4 }Remove&#xff1a;从集合中移除指定的元素。 List<int> numbers new List<int>(){ 1, 2, 3, 4 }; numbers.Re…

(学习笔记-调度算法)磁盘调度算法

磁盘结构&#xff1a; 常见的机械磁盘是上图左边的样子&#xff0c;中间圆的部分是磁盘的盘片&#xff0c;一般会有多个盘片&#xff0c;每个盘面都有自己的磁头。右边的图就是一个盘片的结构&#xff0c;盘片中的每一层分为多个磁道&#xff0c;每个磁道分为多个扇区&#xff…

MySQL从入门到精通【进阶篇】之 主从复制详解

文章目录 0.前言1. 主从复制简介2. 主从复制的工作流程主从复制过程中的日志文件作用&#xff08;Binary Log&#xff09;和中继日志&#xff08;Relay Log&#xff09; 3. MySQL主从复制的配置4. 参考资料 0.前言 MySQL的主从复制和读写分离是数据库领域的基本概念&#xff0…

Axios中使用CancelToken取消请求

CancelToken 是一个用于取消请求的机制。它允许在请求还未完成时&#xff0c;通过取消请求来终止请求的发送。这在需要在某些情况下中止正在进行的请求时非常有用&#xff0c;比如文件上传时取消上传等。 以下是使用 CancelToken 的一般步骤&#xff1a; 首先&#xff0c;导入…

【LeetCode算法系列题解】第31~35题

CONTENTS LeetCode 31. 下一个排列&#xff08;中等&#xff09;LeetCode 32. 最长有效括号&#xff08;困难&#xff09;LeetCode 33. 搜索旋转排序数组&#xff08;中等&#xff09;LeetCode 34. 在排序数组中查找元素的第一个和最后一个位置&#xff08;中等&#xff09;Lee…

前端vue2、vue3去掉url路由“ # ”号——nginx配置

文章目录 ⭐前言⭐vue2中router默认出现#号&#x1f496;在vue2项目中去掉&#x1f496;在vue3项目中去掉 ⭐vue打包 assetsPublicPath base 为绝对路径 /&#x1f496;vue2 配置 assetsPublicPath&#x1f496;vue3 配置 base&#x1f496;验证 ⭐nginx 配置&#x1f496; 使用…

【第二季】【SpringBoot+Vue】前后端分离项目实战 相关资料

免费资料 资源名称资源访问地址视频地址b站源码gitee笔记笔记

Shell编程之流程控制

目录 if判断 case语句 for循环 while循环 if判断 语法&#xff1a; if [ 条件判断表达式 ] then 程序 elif [ 条件判断表达式 ] then 程序 else 程序 fi 注意&#xff1a; [ 条件判断表达式 ]&#xff0c;中括号和条件判断表达式之间必须有空格。if&#xff0c;elif…

SAP FI之定义财务年和财务年度变式(Fiscal Year Variants)

目录 前言 一、财务年度/财务年度变式 二、使用步骤 1.配置步骤 前言 本文主要介绍SAP会计年度和SAP会计年度变式。 一、财务年度/财务年度变式 财务年度可以具有与日历年相同的期间&#xff0c;也可以不同。中国财政年度从1月到12月&#xff0c;称为历年制&#xff0c;有…

Caffine和Guava的refreshAfterWrite的异同

背景: guava和caffine的refreshAfterWrite方法在用于本地缓存的场景是非常常用的&#xff0c;本文通过例子列举下caffine的refreshAfterWrite方法和guava的refreshAfterWrite的相同点和不同点 相同点/不同点&#xff1a; 以下都是使用keyXYZ作为例子 场景1&#xff1a;一开…

Matlab 基本教程

1 清空环境变量及命令 clear all % 清除Workspace 中的所有变量 clc % 清除Command Windows 中的所有命令 2 变量命令规则 &#xff08;1&#xff09;变量名长度不超过63位 &#xff08;2&#xff09;变量名以字母开头&#xff0c; 可以由字母、数字和下划线…

thinkphp6 入门(1)--安装、路由规则、多应用模式

一、安装thinkphp6 具体参考官方文档 安装 ThinkPHP6.0完全开发手册 看云 下面仅列举重要步骤 ThinkPHP6.0的环境要求如下&#xff1a; PHP > 7.2.5 1. 安装Composer 2. 安装稳定版thinkphp 如果你是第一次安装的话&#xff0c;在命令行下面&#xff0c;切换到你的WE…

目标检测笔记(十二):如何通过界面化操作YOLOv5完成数据集的自动标注

文章目录 一、意义二、修改源码获取三、自动标注前期准备四、开始自动标注五、可视化标注效果六、XML转换TXT 一、意义 通过界面化操作YOLOv5完成数据集的自动标注的意义在于简化数据标注的流程&#xff0c;提高标注的效率和准确性。 传统的数据集标注通常需要手动绘制边界框…

接口优化通用方案

目录 批量异步、回调缓存预取池化并行锁粒度索引大事务海量数据 批量 批量思想&#xff1a;批量操作数据库 优化前&#xff1a; //for循环单笔入库 for(TransDetail detail:transDetailList){ insert(detail); } 优化后&#xff1a; batchInsert(transDetailList); 异步、回…

C++:string的[ ],at,push_back

1.[ ]运算符和at函数 返回的是string的当前字符串的合法的索引位置的引用,所谓的合法是指小于size的索引 #include <string> #include <iostream>using namespace std;int main() {string str = "hello";cout<<"str:"<<str<…

力扣真题:无重复字符的最长子串(三种方法)

这道题我一开始使用了Set加类似滑动窗口的方法&#xff0c;最后解得出来&#xff0c;但效率不尽人意&#xff0c;最后经过几次修改&#xff0c;最终用到是滑动窗口指针数组的方式讲效果达到最优&#xff0c;超过近99%的代码。 1、第一版 class Solution {public int lengthOf…

TCP连接分析:探寻TCP的三次握手

文章目录 一、实验背景与目的二、实验需求三、实验解法1. 预先抓包监测使用Wireshark工具2.进行TCP三次握手&#xff0c;访问www.baidu.com3.分析Wireshark捕获的TCP包 摘要&#xff1a; 本实验使用Wireshark工具&#xff0c;通过抓包监测和分析&#xff0c;深入研究了与百度服…

代码随想录笔记--链表篇

目录 1--虚拟头节点的使用 2--设计链表 3--反转链表 4--两两交换链表中的节点 5--快慢指针 5-1--删除链表倒数第N个节点 5-2--环形链表 5-3--环形链表II 1--虚拟头节点的使用 在链表相关题目中&#xff0c;常新定义一个虚拟头结点 dummynode 来指向原链表的头结点&…