智能版面设计:指令跟随模型在自动布局规划中的应用

在广告行业一个吸引人的视觉布局能够显著提升信息的传播效果。但对于非专业设计师来说,创建既美观又功能性强的布局常常是一项挑战。他们往往缺乏必要的设计技能、审美训练或资源来快速实现创意构想。传统的设计软件和在线工具虽然提供了一些模板和指导,但这些往往限制了设计的个性化和创新性,难以满足用户多样化和不断变化的设计需求。

本文旨在解决这一问题,介绍一种基于指令跟随模型的自动布局规划方法。这种方法利用最新的人工智能技术,特别是大模型(LLMs)的指令跟随能力,为用户提供一种新的、用户友好的设计工具。通过简单的指令输入,用户可以指导模型理解设计目的和画布尺寸,自动地将各种视觉元素(如文本、图片、标志等)排列组合,生成符合特定应用场景(如海报、书籍封面、宣传册等)的定制化布局。

模型根据人类提供的指令自动进行布局规划并安排设计目的下的视觉内容的例子

方法

三个布局推理任务的示例输入和输出

图2为三个布局推理任务的示例输入和输出。这些任务是模型训练的关键部分,旨在提高模型对布局指令的理解和执行能力。

(a) 和 (b) 的示例来自Crello数据集,由Yamaguchi在2021年提出。Crello数据集基于在线服务收集的设计模板,这些模板通常从一个空画布开始,要求模型能够组织所提供视觉组件的布局。这些示例展示了模型如何预测每个组件的边界框坐标,以确保它们不会遮挡主要对象。例如,一个设计模板可能包含文本组件或标志,模型需要预测这些组件在画布上的具体位置,同时考虑到它们之间的相互关系和视觉平衡。

(c) 的示例来自PosterLayout数据集,由Hsu等人在2023年提出。与Crello不同,PosterLayout数据集的画布不是从空开始,而是已经包含了背景图像,特别是针对海报的设计。在这种情况下,模型的任务是战略性地放置文本、标签和徽标等组件。这要求模型不仅要理解各个组件的视觉特性,还要考虑它们与背景图像的关系,以及如何在保持设计美观的同时传达必要的信息。

这些示例展示了模型在不同设计场景下的应用能力,包括从空白画布开始的布局规划和在有背景的画布上进行组件放置。通过这些任务的训练,模型能够学习如何在不同的设计约束下有效地安排视觉元素,以实现既定的设计目的和审美要求。

在视觉丰富文档的创建过程中,设计元素的多样性和画布上的分布对于实现有效的视觉传达至关重要。为了保持原始文本设计的完整性,文本内容在实验设置中被转换成图像。布局规划任务涉及将这些设计组件,以图像序列的形式提供,例如其中 n 代表组件的数量,按照特定应用场景 a(如海报、Instagram帖子、书籍封面)和定义好的尺寸 w(宽度)和 ℎ(高度)进行排列。画布可能是空白的,或者有预定义的背景。

为了提供更适应性强的解决方案并增强用户体验,研究者采用了指令跟随的方式来处理视觉丰富的布局规划任务。模型除了接收设计组件的序列外,还会根据应用场景和画布尺寸接收详细的指令 I。模型的任务是预测每个组件的布局,并以结构化格式输出,包括CSS样式,如上、左、宽、高以及层级属性,后者管理可能重叠元素的堆叠顺序。

研究者提出的模型 DocLap 扩展了 mPLUG-Owl,这是一个集成了大型语言模型(LLM)、视觉编码器和视觉抽象器模块的多模态框架。它采用了 Llama-7b v1 作为大型语言模型,CLIP ViT-L/14 作为视觉编码器。视觉抽象器模块将 CLIP 的视觉特征转换为64个标记,与文本嵌入的维度相匹配,允许同时处理多个视觉输入。研究者扩展了 Llama v1 的词汇表,增加了0到128范围内的数值标记,并在进一步的指令调整中调整了这些扩展标记的嵌入。

 实验设置

研究者在两个视觉丰富文档的布局规划基准测试上进行了实验:Crello和PosterLayout。Crello数据集基于从在线服务收集的设计模板构建,挑战模型从空白画布开始组织所提供视觉组件的布局。而PosterLayout数据集则从带有背景图像的非空白画布开始,要求模型策略性地放置文本、标签和徽标。为了确保实验的公平性,验证示例被限制为不超过4个图像,这与提交时GPT-4V的输入约束一致。

本研究中使用的两个数据集Crello和PosterLayout在训练或验证任务中包含的示例数量

研究者的训练数据得到了Adobe Express设计模板的补充。具体到每个训练或验证任务的数据集示例数量,如表1所示。在预处理阶段,小于画布大小5%的组件被排除,所有模板都被调整大小以确保最长边不超过128像素。

为了评估所提出模型的性能,研究者将其与Crello上的CanvasVAE和FlexDM,以及PosterLayout上的DSGAN进行了比较。此外,还包括了GPT-4和GPT-4V的文本版本进行比较评估。对于这些文本版本的评估,视觉组件不直接提供,而是通过BLIP-2生成每个组件的文本描述。

对于Crello的评估,研究者测量了预测和实际边界框之间的平均交并比(mIoU),以及左、上、宽、高维度的准确性。准确性通过将预测值与真实值进行64-bin量化范围比较来量化,如果预测值落在与真实值相同的范围内,则得分为1,否则为0。在PosterLayout的评估中,研究者采用了内容感知度量标准,包括遮挡率(表示主要对象被设计元素遮挡的百分比)、效用率(反映设计组件覆盖非主要对象区域的程度)和不可读性(测量包含文本元素的区域的均匀性)。

结果

结果显示在模型间交并比(mIoU)和各方面(左、上、宽、高)的精度上,DocLap模型超过了少量GPT-4(V)模型,但与FlexDM相比仍有提升空间。

Crello数据集上自动评估的结果
PosterLayout数据集上的评估结果,其中"Occ."代表遮挡率,衡量的是设计元素遮挡主要对象的程度;"Uti."代表效用率,反映设计组件覆盖非主要对象区域的广度;"Rea."代表不可读性

表2展示了Crello数据集上的评估结果,包括mIoU和各个维度的准确性。表3则展示了PosterLayout数据集上的评估结果,其中包括遮挡率、效用率和不可读性等指标。 

(a)设计模板中视觉组件数量对模型mIoU的影响
(b)单个视觉组件的相对大小与模型预测与真实值的IoU之间的相关性

图3(a)揭示了所有列出的模型在只有一个组件的模板上展现出高mIoU。随着组件数量的增加,DocLap和GPT-4(V)的mIoU呈现下降趋势,这表明涉及更多视觉组件的更复杂场景可能对当前的指令跟随模型构成挑战。

图3(b)展示了单一视觉组件的相对大小与模型预测的IoU与真实值之间的线性相关性。这表明较小的视觉组件在布局规划中实现精确放置面临更大挑战。这些小组件,如标志、小文本框或装饰元素,在布局中具有一定的位置灵活性,允许多种有效的放置方式。

Crello上布局规划结果的定性比较,包括真实情况、本文提出的模型(Ours)、GPT4V以及FlexDM的结果
PosterLayout上布局规划结果的定性比较,同样包括真实情况、本文提出的模型(Ours)、GPT4V以及DS-GAN的结果

图4和图5分别展示了Crello和PosterLayout的布局规划结果示例。这些示例包括了真实情况、DocLap模型的输出、GPT4V模型的输出以及FlexDM和DS-GAN模型的输出。通过这些示例,研究者展示了不同模型在处理具有挑战性的设计任务时的表现。

通过定量和定性的结果分析,研究者揭示了其在简化设计流程和提升非专业设计者效率方面的显著潜力,同时也指出了在面对复杂设计任务时的局限性:尽管DocLap在简化设计过程和提高非专业用户的设计效率方面显示出潜力,但在处理更复杂的设计场景时,模型的性能有所下降。尽管如此,这项工作为设计自动化领域提供了宝贵的见解,并强调了开发更全面的评估体系的重要性。

论文链接:https://arxiv.org/abs/2404.15271

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法)

本篇介绍一下使用 vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法) 1 需求 marker 光晕扩散(光环扩散) 2 分析 marker 光晕扩散(光环扩散)使用 post…

SPI NAND、SD NAND和eMMC对比—MK米客方德

目录 1. 容量: 2.封装类型: 3.速度: 4.性能: 5.寿命: 6. 使用方式: 7. 其他优缺点: 8.常见应用场景: 1. 容量: SPI NAND通常提供从几百MB到几GB的存储容量。 SD NAND的容量覆盖范围比SPI NAND更广,从几GB到几十GB不等。 eMMC的容量范围更大&a…

代码随想录第41天|动态规划

322. 零钱兑换 dp[j] : 最小硬币数量, j 为金额(相当于背包空间)递推公式 : dp[j] min(dp[j - coins[i]] 1, dp[j])初始化: 需要一个最大值, 避免覆盖, dp[0] 0遍历顺序: 钱币有序无序不影响, 因为求解最小个数, 结果相同(先遍历物品后背包, 先背包后物品都可) class Solut…

怎样在《语文世界》期刊上发表论文?

怎样在《语文世界》期刊上发表论文? 《语文世界》知网国家级 1.5-2版 2500字符左右 正常收25年4-6月版面 可加急24年内(初中,高中,中职,高职,大学均可,操作周期2个月左右) 《语文世…

【084】基于SpringBoot实现的家乡特色推荐系统

系统介绍 视频演示 点击查看演示视频 基于SpringBoot实现的家乡特色推荐系统主要采用SpringBootVue进行开发,系统整体分为管理员、用户两种角色,主要功能包括首页,个人中心,用户管理,文章分类管理,文章分…

C语言结构体深入解析【结构体嵌套结构体,结构体变量和指针,结构体和函数,计算结构体大小,结构体数组,结构体成员的访问,结构体与联合】

C语言结构体深入解析 目录 C语言结构体深入解析前言结构体的定义结构体在内存中的表示结构体变量初始化直接定义并初始化使用自己定义的结构体变量初始化新变量结构体数组初始化 结构体中嵌套结构体结构体成员访问点操作符(.)箭头操作符(->) 结构体变量和指针结构体指针定义…

@RequestMapping属性详解及案例演示

RequestMapping源码 Target({ElementType.TYPE, ElementType.METHOD}) Retention(RetentionPolicy.RUNTIME) Documented Mapping public interface RequestMapping {String name() default "";AliasFor("path")String[] value() default {};AliasFor(&quo…

智能写作与痕迹消除:AI在创意文案和论文去痕中的应用

作为一名AI爱好者,我积累了许多实用的AI生成工具。今天,我想分享一些我经常使用的工具,这些工具不仅能帮助提升工作效率,还能激发创意思维。 我们都知道,随着技术的进步,AI生成工具已经变得越来越智能&…

简单分享 for循环,从基础到高级

1. 基础篇:Hello, For Loop! 想象一下,你想给班上的每位同学发送“Hello!”,怎么办?那就是for循环啦, eg:首先有个名字的列表,for循环取出,分别打印 names ["Alice", …

bigNumber的部分使用方法与属性

场景:最近做IoT项目的时候碰到一个问题,涉及到双精度浮点型的数据范围的校验问题。业务上其实有三种类型:int、float和double类型三种。他们的范围分别是: //int int: [-2147483648, 2147483647],//float float: [-3402823466385…

PHP7源码结构

PHP7程序的执行过程 1.PHP代码经过词法分析转换为有意义的Token; 2.Token经过语法分析生成AST(Abstract Synstract Syntax Tree,抽象语法树); 3.AST生成对应的opcode,被虚拟机执行。 源码结构&#xff1…

一切为了安全丨2024中国应急(消防)品牌巡展武汉站成功召开!

消防品牌巡展武汉站 6月28日,由中国安全产业协会指导,中国安全产业协会应急创新分会、应急救援产业网联合主办,湖北消防协会协办的“一切为了安全”2024年中国应急(消防)品牌巡展-武汉站成功举办。该巡展旨在展示中国应急(消防&am…

qt QTreeView的简单使用(多级子节点)

MainWindow::MainWindow(QWidget *parent): QMainWindow(parent), ui(new Ui::MainWindow) {ui->setupUi(this);setWindowTitle("QTreeView的简单使用");model new QStandardItemModel;model->setHorizontalHeaderLabels(QStringList() << "left&q…

[leetcode]longest-arithmetic-subsequence-of-given-difference. 最长定差子序列

. - 力扣&#xff08;LeetCode&#xff09; class Solution { public:int longestSubsequence(vector<int> &arr, int difference) {int ans 0;unordered_map<int, int> dp;for (int v: arr) {dp[v] dp[v - difference] 1;ans max(ans, dp[v]);}return ans…

Qt源码分析:窗体绘制与响应

作为一套开源跨平台的UI代码库&#xff0c;窗体绘制与响应自然是最为基本的功能。在前面的博文中&#xff0c;已就Qt中的元对象系统(反射机制)、事件循环等基础内容进行了分析&#xff0c;并捎带阐述了窗体响应相关的内容。因此&#xff0c;本文着重分析Qt中窗体绘制相关的内容…

如何完成域名解析验证

一&#xff1a;什么是DNS解析&#xff1a; DNS解析是互联网上将人类可读的域名&#xff08;如www.example.com&#xff09;转换为计算机可识别的IP地址&#xff08;如192.0.2.1&#xff09;的过程&#xff0c;大致遵循以下步骤&#xff1a; 查询本地缓存&#xff1a;当用户尝…

顺序串算法库构建

学习贺利坚老师顺序串算法库 数据结构之自建算法库——顺序串_创建顺序串s1,创建顺序串s2-CSDN博客 本人详细解析博客 串的概念及操作_串的基本操作-CSDN博客 版本更新日志 V1.0: 在贺利坚老师算法库指导下, 结合本人详细解析博客思路基础上,进行测试, 加入异常弹出信息 v1.0补…

已解决java.awt.geom.NoninvertibleTransformException:在Java2D中无法逆转的转换的正确解决方法,亲测有效!!!

已解决java.awt.geom.NoninvertibleTransformException&#xff1a;在Java2D中无法逆转的转换的正确解决方法&#xff0c;亲测有效&#xff01;&#xff01;&#xff01; 目录 问题分析 出现问题的场景 报错原因 解决思路 解决方法 1. 检查缩放因子 修改后的缩放变换 …

关键路径——C语言(理论)

关键路径&#xff0c;是项目网络中从起始事件到终止事件的最长路径&#xff0c;决定了项目的最短完成时间。 关键路径中的任务没有任何可调整的余地&#xff0c;如果任何一个任务被延迟&#xff0c;整个项目的完成时间也会被延迟。 假设我们现在有一个图&#xff1a;把图的边…

【CH32V305FBP6】USBD HS 虚拟串口分析

文章目录 前言分析端点 0USBHS_UIS_TOKEN_OUT 端点 2USBHS_UIS_TOKEN_OUTUSBHS_UIS_TOKEN_IN 前言 虚拟串口&#xff0c;端口 3 单向上报&#xff0c;端口 2 双向收发。 分析 端点 0 USBHS_UIS_TOKEN_OUT 设置串口参数&#xff1a; 判断 USBHS_SetupReqCode CDC_SET_LIN…