认识“DRESS”:通过自然语言反馈与人类协调和互动的大视觉语言模型 (LVLM)

大视觉语言模型(LVLM)可以解释视觉线索并为用户交互提供简单的答复。这是通过巧妙地将大型语言模型 (LLM) 与大规模视觉指令微调融合来实现的。然而,LVLM 只需要手工制作或 LLM 生成的数据集即可通过监督微调 (SFT) 进行对齐。尽管将 LVLM 从标题生成器更改为服从指令的模型效果很好,但 LVLM 仍然会生成有害的、恶意的或无用的回复。这表明它们仍然需要更加符合人类的偏好。此外,虽然之前的研究鼓励以多轮形式组织视觉指令调整样本,但 LVLM 的交互能力受到不同轮之间的弱连接和相互依赖的限制。在这里,交互能力评估 LVLM 在多轮交互中使用先验上下文调整其回复的能力。这两个缺点限制了 LVLM 作为视觉助手的实际应用。 

来自 SRI International 和伊利诺伊大学厄巴纳-香槟分校的研究团队提出了 DRESS,这是一种 LVLM,在这项工作中使用法学硕士产生的自然语言反馈 (NLF) 进行独特的教学(参见图 1)。研究团队指示法学硕士通过为 LVLM 的答复提供具体规则和广泛的照片注释来提供细粒度的反馈。为了与创建以人为本的法学硕士的过程保持一致,此反馈注释考虑了三个 H 标准:乐于助人、诚实和无害。反馈根据 3H 标准衡量回复的整体质量,并提供数字分数和 NLF。研究团队的方法将NLF分为批判和提炼。这是一个新颖的分类。虽然细化 NLF 为 LVLM 提供了关于改进其回复以与地面实况参考保持一致的精确建议,但批评 NLF 评估了响应的优点和缺点。这种分类提供了两种 NLF 的自然应用,使 LVLM 更适合人类并增强其交互能力。 

图1:研究人员指导DRESS使用自然语言输入,分为批判和细化两类,以增强与人类偏好的契合度和交互能力。

研究团队推广了条件强化学习技术来满足 NLF 的不可微分特性,并利用这种反馈来训练 LVLM。具体来说,研究团队在回复中使用语言建模 (LM) 损失来训练 DRESS,以生成基于两个 NLF 的等效回复。研究团队通过分析和解释数值结果来完善 DRESS,以更好地匹配用户偏好。通过推理过程中的多轮交互,研究团队训练 DRESS 学习通过使用细化 NLF 来细化其原始回复的元技能。 

研究团队评估了 DRESS 的多轮交互、对抗性提示的无害性评估、图片说明的诚实性评估以及开放式视觉问题响应的有用性评估。实验结果表明,与早期的 LVLM 相比,DRESS 可以提供符合人类价值观的回复,并具有卓越的交互能力,使其能够从反馈中学习并根据需要有效地修改响应。据他们所知,研究团队的工作首次解决了 LVLM 的交互能力和所有三个 3H 标准。 

研究团队的贡献总结如下: 

• 研究团队建议使用自然语言反馈(NLF)(可分为批判和提炼NLF)来增强LVLM 与人类偏好交互和一致的能力。 

• 通过训练模型以提供以 NLF 为条件的匹配响应,研究团队推广了条件强化学习方法,以成功地适应不可微分的 NLF。与之前的 SOTA 相比,研究团队建议的模型 DRESS 基于对乐于助人、诚实和无害对齐的系统评估,相对提高了 9.76%、11.52% 和 21.03%。 

• 研究小组生成并提供了 63K 个带注释的语言 NLF 示例供公众使用,包括 3H 特征。此外,研究团队还创建了一个包含 4700 个样本的公开数据集,用于无害性比对和 LVLM 评估。 

查看 论文和数据集。 这项研究的所有功劳都归功于该项目的研究人员。另外,不要忘记加入 我们的 33k+ ML SubReddit、 41k+ Facebook 社区、Discord Channel和电子邮件通讯,我们在这里分享最新的 AI 研究新闻、酷炫的 AI 项目等等。

如果您喜欢我们的工作,您一定会喜欢我们的时事通讯。

大型视觉语言模型(LVLM)能否从自然语言反馈中学习以提高其对齐和交互能力?

很高兴分享 DRESS,这是一个通过自然语言反馈训练的 LVLM。

论文:https://t.co/UB1pdaN4q1
数据集:https://t.co/pUzCcUwyqn pic.twitter.com/Zbc3Cbg097

— 陈杨毅 (@YangyiChen6666) 2023 年 11 月 26 日

认识“DRESS”:通过自然语言反馈与人类协调和交互的大视觉语言模型 (LVLM) 这篇文章首先出现在MarkTechPost上。

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/238323.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

数据分析基础之《numpy(4)—ndarry运算》

一、逻辑运算 当我们要操作符合某一条件的数据时,需要用到逻辑运算 1、运算符 满足条件返回true,不满足条件返回false # 重新生成8只股票10个交易日的涨跌幅数据 stock_change np.random.normal(loc0, scale1, size(8, 10))# 获取前5行前5列的数据 s…

派生类对基类成员的访问权限

私有成员: 在类作用域中可以被访问(如在定义公有成员函数时,在其函数体中可以访问私有成员) 在类作用域外,只能通过调用公有成员函数和友元函数来访问私有成员 公有成员: 在类作用域中可以被调用&#…

代码随想录算法训练营第十天 | 232.用栈实现队列、225. 用队列实现栈

232.用栈实现队列 题目链接:232.用栈实现队列 请你仅使用两个栈实现先入先出队列。队列应当支持一般队列支持的所有操作(push、pop、peek、empty): 实现 MyQueue 类: void push(int x) 将元素 x 推到队列的末尾int…

《A++ 敏捷开发》-1 如何改善

1 如何改善 敏捷开发过程改进案例 5月 A公司一直专门为某电信公司提供针对客服、线上播放等服务。 张工是公司的中层管理者,管理好几个开发团队,有5位项目经理向他汇报。 他听说老同学的团队都开始用敏捷开发,很感兴趣,便参加了…

uniapp应用内升级

一、权限 manifest.json-APP权限设置需勾选&#xff1a; “<uses-permission android:name“android.permission.INSTALL_PACKAGES”/>”, “<uses-permission android:name“android.permission.REQUEST_INSTALL_PACKAGES”/>” 二、下载与安装 const downloadT…

Zookeeper集群搭建,四字命令监控,Leader选举原理以及数据如何同步

Java学习面试指南&#xff1a;https://javaxiaobear.cn 1、集群角色 Leader&#xff1a; 领导者。 事务请求&#xff08;写操作&#xff09;的唯一调度者和处理者&#xff0c;保证集群事务处理的顺序性&#xff1b;集群内部各个服务器的调度者。对于create、setData、delete…

抖店怎么运营?走通流程是关键!

我是电商珠珠 很多新手在入驻抖店的时候&#xff0c;都不知道前期怎么去运营。 运营的技巧很多&#xff0c;牵扯到很多细节&#xff0c;跑通流程是关键。 所以&#xff0c;今天就来给大家讲讲抖店的几个基本流程&#xff0c;只有将流程跑通了才能去更快的抠细节上的东西。 …

金融软件开发的 4 大挑战

与大多数行业一样&#xff0c;金融行业不断发展&#xff0c;同样给软件和解决方案开发带来了挑战。虽然这些挑战并不独特&#xff0c;也不新颖&#xff0c;但是随着时间的推移&#xff0c;金融体系越来越复杂&#xff0c;这些挑战的影响也越来越大。 在上一篇文章中&#xff0…

Jenkins自动化构建打包,部署

1.环境准备 上传jdk&#xff0c;maven和tomcat的包&#xff0c;解压到/usr/local下并配置环境变量。 配置jdk [rootserver04 ~]# vim /etc/profile.d/java.sh JAVA_HOME/usr/local/java export PATH$JAVA_HOME/bin:$PATH##加载环境变量 [rootserver04 ~]# source /etc/profi…

elementui - table中下拉进行验证

<template><!-- 巡查计划 - 新增巡查点位 --><el-dialog :visible.sync"dialogShow1" title"新增巡查点位" width"800" top"15vh" closehandleCancle><el-form :model"ruleForm" ref"ruleForm&qu…

C语言--指针深入理解--题目篇

C语言--指针深入理解--题目篇 1. sizeof 与 strlen 比较1.1 sizeof1.2 strlen1.3 数组名的意义 2. 数组和指针笔试题解析&#xff08;均以x86环境为例&#xff09;2.1 ⼀维数组2.2 字符数组2.3 二维数组 3. 指针运算笔试题解析 1. sizeof 与 strlen 比较 1.1 sizeof sizeof 计…

FPGA未解之谜

一.ila一会能加载出波形&#xff0c;一会加载不出波形——在自己做的v7开发板中遇到&#xff0c;其他开发板从未遇到过 1.小梅哥说&#xff1a;可能与硬件jtag连接不稳定导致。

DRF从入门到精通二(Request源码分析、DRF之序列化、反序列化、反序列化校验、序列化器常用字段及参数、source、定制字段、保存数据)

文章目录 一、Request对象源码分析区分原生request和新生request新的request还能像原来的reqeust一样使用吗源码片段分析总结&#xff1a; 二、DRF之序列化组件序列化介绍序列化步骤序列化组件的基本使用反序列化基本使用反序列化的新增反序列化的新增删除单条 反序列化的校验序…

【Linux笔记】网络操作命令详细介绍

&#x1f34e;个人博客&#xff1a;个人主页 &#x1f3c6;个人专栏&#xff1a;Linux学习 ⛳️ 功不唐捐&#xff0c;玉汝于成 前言&#xff1a; 网络操作是Linux系统中常见的任务之一&#xff0c;它涵盖了测试网络连接、配置网络接口、显示网络统计信息以及远程登录和文件传…

RabbitMQ笔记(高级篇)

RabbitMQ笔记_高级篇 问题代码准备1. 新建生产者2. 新建消费者 RabbitMQ 高级特性1. 消息的可靠投递☆1.1 两种模式1.2 测试confirm 确认模式1.3 测试return 退回模式1.4 小结 2. Consumer ACK☆2.1 三种ACK2.2 测试手动ACK2.3 小结2.4 消息可靠性总结 3. 消费端限流测试消费端…

js执行本地cmd命令

javascript执行本地cmd命令,javascript代码怎么执行_js调用本机cmd-CSDN博客 使用 Node.js 打开本地应用_nodejs启动应用-CSDN博客 笔记:nodejs脚本唤醒本地应用程序或者调用命令-CSDN博客 命令行打开vscode 你可以使用CLI命令从终端或Bash启动VSCode。 在当前目录中打开VSCo…

JavaScript计时器

JavaScript计时器 <!doctype html> <html lang"en"><head><meta charset"UTF-8"><meta name"viewport"content"widthdevice-width, user-scalableno, initial-scale1.0, maximum-scale1.0, minimum-scale1.0&q…

【即插即用篇】YOLOv8改进实战 | 引入 Involution(内卷),用于视觉识别的新一代神经网络!涨点神器!

YOLOv8专栏导航:点击此处跳转 前言 YOLOv8 是由 YOLOv5 的发布者 Ultralytics 发布的最新版本的 YOLO。它可用于对象检测、分割、分类任务以及大型数据集的学习,并且可以在包括 CPU 和 GPU 在内的各种硬件上执行。 YOLOv8是一种尖端的、最先进的 (SOTA) 模型,它建立在以前成…

【华为机试】2023年真题B卷(python)-城市聚集度

一、题目 题目描述&#xff1a; 一张地图上有n个城市&#xff0c;城市和城市之间有且只有一条道路相连&#xff1a;要么直接相连&#xff0c;要么通过其它城市中转相连&#xff08;可中转一次或多次&#xff09;。城市与城市之间的道路都不会成环。 当切断通往某个城市 i 的所有…

CSS 网页制作-学成在线

1、 准备工作 1.1 项目目录 网站根目录是指存放网站的第一层文件夹&#xff0c;内部包含当前网站的所有素材&#xff0c;包含HTML、CSS、图片、JavaScript等等。 1.2 版心效果 可以发现都是呈现版心居中的效果&#xff0c;但是每次都写一次太麻烦了&#xff0c;可以把版心居中…