GPT-4充当“规划师、审计师”,颠覆性双层文生图表模型

DALL-E 3、Midjourney、Stable Diffusion等模型展现出了强大的创造能力,通过文本便能生成素描、朋克、3D、二次元等多种类型的高质量图片,但在生成科学图表(柱状、直方、箱线、树状等)方面却略显不足。

这是因为模型在生成图表时会遗漏重要的对象,生成错误的对象关系箭头,以及产生不可读的文本标签,缺乏对对象的精细布局控制。尤其是当多个对象存在复杂的箭头或线段关系时,无法渲染清晰可读的文本,而这两点对于图表生成至关重要。

为了解决这两大难题,北卡罗来纳大学提出了DiagrammerGPT框架。首先,使用GPT-4充当“规划师”,根据文本描述生成图表的布局规划信息

规划信息包含实体(对象和文本标签)、实体之间的关系(箭头、线段等)以及实体的布局信息(边界框坐标)。然后再用GPT-4充当“审计师”来审核整个规划计划,进行图表细节优化

图片

在图表生成阶段,通过DiagramGLIGEN扩散模型能够根据图表规划生成精准图表,并用Pillow库对文本标签进行渲染提升精准度。

根据测试数据显示,在多个量化指标上,DiagrammerGPT 显著优于Stable Diffusion、VPGen 和 AutomaTikZ等模型生成的图表。

在图表与文本相关性和对象关系的准确性评估方面,DiagrammerGPT分别取得36%和48%的优于基准模型的评分。该研究对于文本生成高精准图表模型来说,有着重大突破。

开源地址:https://github.com/aszala/DiagrammerGPT

论文地址:https://arxiv.org/abs/2310.12128

图表规划

DiagrammerGPT框架的最大创新在于,利用GPT-4的强大自然语言处理能力指导图表布局生成。为了生成更准确的规划,还设计了闭环反馈机制。

一个GPT-4 充当“规划师”生成初始规划,另一个 GPT-4 充当“审计师”,评估规划的准确性并提供反馈。而规划师可以根据反馈调整规划布局。

图片

1)初始图表规划生成

研究人员对GPT-4通过10个语境学习样例进行了训练,每个样例都包含完整的图表文本描述、实体、关系和布局信息。规划包含3个要素:

实体:对象和文本标签的列表。对象指图表中的图像元素,文本标签指对象的文字说明。

关系:实体之间的关系,比如箭头连接、线段连接、文本标签标注对象等。

布局:所有实体的边界框坐标信息,[x,y,w,h]格式。

2)规划优化

为进一步提高规划质量,提出了规划师、审计师的闭环反馈机制进行迭代优化。其中GPT-4充当规划师,另一个GPT-4充当审计师。审计师会检查规划与文本描述是否匹配,提供反馈意见;规划师根据反馈更新规划。

图片

其中,审计师GPT-4也是通过特定语境学习进行训练的,以提供有效的反馈意见。两者训练使用不同的语境学习样本。

图片

图表生成

研究人员通过Diagram GLIGEN扩散模型用于图表生成,并加入了门控自注意力层,可以利用图表规划的布局信息指导图像生成。

与原始的GLIGEN模型只处理物体不同,DiagramGLIGEN可同时处理文本标签和箭头关系作为布局输入。DiagramGLIGEN在AI2D-Caption数据集上进行了训练,使其能生成特定领域的科学图表。

图片

但由于扩散模型本身文本渲染效果不佳,无法输出清晰可读的文本,研究人员使用Pillow库显式渲染文本标签,提升文本的清晰度。

训练、评估数据集

研究人员基于AI2D科学图表数据集构建了AI2D-Caption数据集,用于文本到图表生成的训练和数据测试。AI2D包含约4900张科学图表图像,涵盖天文、生物、工程等领域。

其中选取了105张图表,使用大语言模型为每个图表生成详细的图像标题和对象描述。其中30张作为语言模型的语境学习样本,75张作为测试集。

相比原始AI2D只有简单的标题,AI2D-Caption提供了更丰富的文本描述,包括完整的图表标题和每个对象的详情。

图片

多个基准测试数据显示,在VPEval上,DiagrammerGPT的对象、数量、关系和文本渲染准确性均明显优于基准模型,从多个方面证明了其生成图表的高质量。

在图像字幕上,DiagrammerGPT生成的图表能产生更相关的标题,标题与真值更加接近。在CLIPScore上,DiagrammerGPT的图像-文本和图像-图像相似度更高,更接近真值图表和标题。还进行了人类评估,多数人表示,更喜欢DiagrammerGPT生成的图表。

本文素材来源北卡罗来纳大学论文,如有侵权请联系删除

END

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/news/149391.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

解锁安全与信任的双重礼遇!JoySSL证书买二送一,买三送二

JoySSL是业内领先的SSL证书提供商,致力于为网站提供最高水平的安全性。通过使用JoySSL证书,您的网站将获得强大的加密保护,确保用户的敏感信息在传输过程中得到安全加密,有效地抵御各种网络威胁。 为何选择JoySSL证书&#xff1f…

简单好用的轻量级思维导图:ClickCharts 激活for mac

ClickCharts是一款流程图和流程图绘制软件,它提供了直观的界面和丰富的工具,帮助用户轻松创建和编辑各种类型的图表和流程图。 以下是ClickCharts软件的一些主要功能和特点: 流程图绘制:ClickCharts允许用户创建各种类型的流程图…

ROS Turtlebot3多机器人编队导航仿真

文章目录 前言一、Gzazebo中加载多台Turtlebot3机器人二、RVIZ中加载多个Turtlebot3机器人三.多机器人编队导航总结 前言 前面已经实现了在gazebo仿真环境中机器人一字型编队、三角形编队、N字型编队等仿真,接下来考虑多机器人编队在编队行进过程中的避障问题&…

如何看待阿里云发布的全球首个容器计算服务 ACS?

如何看待阿里云发布的全球首个容器计算服务 ACS? 本文目录: 前言 一、什么是ACS 二、ACS 的核心特性 三、ACS 的关键技术 四、本期话题讨论 4.1、你如何看待容器计算服务 ACS 的发布? 4.2、你认为 ACS 的产品设计能降低企业使用 K8s的…

Uniapp矩阵评分组件

uniapp矩阵评分组件支持自定义图标、选择颜色、评分等级。 <template><view style"width: 100%;overflow: hidden;"><view class"flex-sub flex-table flex flex-direction-column":style"{ --table-border-color: tableBorderColor…

数据结构-插入排序+希尔排序+选择排序

目录 1.插入排序 插入排序的时间复杂度&#xff1a; 2.希尔排序 希尔排序的时间复杂度&#xff1a; 3.选择排序 选择排序的时间复杂度&#xff1a; 所谓排序&#xff0c;就是使一串记录&#xff0c;按照其中的某个或某些关键字的大小&#xff0c;递增或递减的排列起来的…

PHP排序sort()、asort() 和 ksort() 的区别及用法

&#x1f3c6;作者简介&#xff0c;黑夜开发者&#xff0c;CSDN领军人物&#xff0c;全栈领域优质创作者✌&#xff0c;CSDN博客专家&#xff0c;阿里云社区专家博主&#xff0c;2023年6月CSDN上海赛道top4。 &#x1f3c6;数年电商行业从业经验&#xff0c;历任核心研发工程师…

Amazon EC2的出现,是时代的选择了它,还是它选择了时代

目录 Amazon EC2简介 友商云服务器对比&#xff08;Amazon VS Tencent&#xff09; 友商云服务器对比&#xff08;Amazon VS Alibaba&#xff09; Amazon 云服务器的绝对优势 Amazon EC2功能 Amazon EC2 Linux 实例入门 启动实例 连接到的实例 清除的实例 终止的实例…

【Linux】一

本文使用的是云服务器来获取Linux环境 (使用虚拟机同样可以学习使用命令), 并且介绍了常用的Linux 命令. 获取Linux环境 使用xshell连接到云服务器 1.新建会话 输入主机号(云服务器的外网ip) 2.输入用户名/密码 centos的用户名:root 密码就是在后台设置的 3.成功进入 ~描…

盛元广通开放实训室管理系统2.0

开放实训室管理系统是一种基于网络和数据库的实训室信息管理系统&#xff0c;旨在提高实训室的管理水平&#xff0c;实现实训资源的优化配置和高效利用。该系统通常包括用户管理、设备管理、课程管理、考核管理等功能模块&#xff0c;能够实现实训室的预约、设备借用、课程安排…

PDF/X、PDF/A、PDF/E:有什么区别,为什么有这么多格式?

PDF 是一种通用文件格式&#xff0c;允许用户演示和共享文档&#xff0c;无论软件、硬件或操作系统如何。多年来&#xff0c;已经创建了多种 PDF 子类型来满足各个行业的不同需求。让我们看看一些最流行的格式&#xff1a;PDF/X、PDF/A 和 PDF/E。 FastReport .net下载 PDF/X …

如何远程控制别人电脑进行技术支持?

怎么提供远程技术支持&#xff1f; “我朋友的电脑出了一些问题&#xff0c;问我是否可以远程控制他的电脑帮他解决。请问有什么办法能快速的远程控制别人的电脑进行故障排除呢&#xff1f;” 当电脑出问题时&#xff0c;多数情况下会采用电话沟通进行解决&#…

Nuxt3框架全局引用外部JS/CSS文件的相关配置方法

全局引入外部文件方法&#xff1a; 找到根目录下的nuxt.config.ts配置文件&#xff1b;然后如上图所示&#xff0c;在defineNuxtConfig配置对象下app选项节点下&#xff0c;head对象中即可配置全局需要的JS或CSS文件&#xff1b; // https://nuxt.com/docs/api/configuration/…

BetterDisplay Pro for Mac(显示器校准软件)

BetterDisplay Pro是一款由waydabber开发的Mac平台上的显示器校准软件&#xff0c;可以帮助用户调整显示器的颜色和亮度&#xff0c;以获得更加真实、清晰和舒适的视觉体验。 以下是BetterDisplay Pro的主要特点&#xff1a; - 显示器校准&#xff1a;可以根据不同的需求和环境…

计算机系统的层次结构和性能指标

目录 五层结构三个级别语言 计算机性能指标CPU性能指标系统整体的性能指标 五层结构 三个级别语言 编译程序&#xff1a;将高级语言编写的源程序全部语句一次全部翻译成机器语言程序&#xff0c;而后再执行机器语言程序&#xff08;只需翻译一次&#xff09; 解释程序&#xff…

分布式与微服务 —— 初始

前言 距今微服务的提出已经过去快十个春秋&#xff0c;网络上的博文讲微服务也是一抓一大把&#xff0c;但是荔枝仍然觉得还是有必要自己梳理一下整个知识体系。在这篇文章中&#xff0c;荔枝将会以一个初学者的角度来切入&#xff0c;从分布式系统和微服务架构引入&#xff0c…

idea项目中java类名出现带 j 小红点,如何解决?

目录 一、问题描述 二、问题解决方案 1、寻找异常问题 2、解决方案 2.1常规操作方法 2.2 快速操作方法 一、问题描述 一打开idea的java项目&#xff0c;发现所有的文件边上都有带J的大红点 虽然&#xff0c;在 git bash 中进行编译时无异常。 但是视觉上给人的感受就是…

没收到Win11 23H2正式版的推送怎么升级到23H2

没收到Win11 23H2正式版的推送怎么升级到23H2&#xff1f;用户反映自己没有收到Win11 23H2正式版的更新推送&#xff0c;又想升级为23H2版本。接下来小编给大家详细介绍不同的升级方法&#xff0c;帮助更多的用户完成Win11 23H2系统的更新&#xff0c;升级后就能体验到Win11 23…

利用API连接抖音外卖与电商平台和营销系统,实现无代码开发的集成

利用API连接抖音外卖和电商平台 抖音来客&#xff0c;作为抖音生活服务商家经营平台&#xff0c;为商家提供一站式经营服务&#xff0c;其中包括入驻、上品、经营和履约等功能。商家可以通过API调用&#xff0c;实现电商平台和抖音外卖的连接&#xff0c;从而优化运营效率。例…

spark性能调优 | 内存优化

目录 我们先了解一下有哪些内存温馨提示RDD示范(spark版本2.1.1)RDD进行优化Df和Ds进行示范 我们先了解一下有哪些内存 1.storage内存 存储数据&#xff0c;缓存 可预估2.shuffle内存 计算join groupby 不可预估spark1.6之前 静态管理的&#xff0c;spark1.6之…