智能版面设计:指令跟随模型在自动布局规划中的应用

在广告行业一个吸引人的视觉布局能够显著提升信息的传播效果。但对于非专业设计师来说,创建既美观又功能性强的布局常常是一项挑战。他们往往缺乏必要的设计技能、审美训练或资源来快速实现创意构想。传统的设计软件和在线工具虽然提供了一些模板和指导,但这些往往限制了设计的个性化和创新性,难以满足用户多样化和不断变化的设计需求。

本文旨在解决这一问题,介绍一种基于指令跟随模型的自动布局规划方法。这种方法利用最新的人工智能技术,特别是大模型(LLMs)的指令跟随能力,为用户提供一种新的、用户友好的设计工具。通过简单的指令输入,用户可以指导模型理解设计目的和画布尺寸,自动地将各种视觉元素(如文本、图片、标志等)排列组合,生成符合特定应用场景(如海报、书籍封面、宣传册等)的定制化布局。

模型根据人类提供的指令自动进行布局规划并安排设计目的下的视觉内容的例子

方法

三个布局推理任务的示例输入和输出

图2为三个布局推理任务的示例输入和输出。这些任务是模型训练的关键部分,旨在提高模型对布局指令的理解和执行能力。

(a) 和 (b) 的示例来自Crello数据集,由Yamaguchi在2021年提出。Crello数据集基于在线服务收集的设计模板,这些模板通常从一个空画布开始,要求模型能够组织所提供视觉组件的布局。这些示例展示了模型如何预测每个组件的边界框坐标,以确保它们不会遮挡主要对象。例如,一个设计模板可能包含文本组件或标志,模型需要预测这些组件在画布上的具体位置,同时考虑到它们之间的相互关系和视觉平衡。

(c) 的示例来自PosterLayout数据集,由Hsu等人在2023年提出。与Crello不同,PosterLayout数据集的画布不是从空开始,而是已经包含了背景图像,特别是针对海报的设计。在这种情况下,模型的任务是战略性地放置文本、标签和徽标等组件。这要求模型不仅要理解各个组件的视觉特性,还要考虑它们与背景图像的关系,以及如何在保持设计美观的同时传达必要的信息。

这些示例展示了模型在不同设计场景下的应用能力,包括从空白画布开始的布局规划和在有背景的画布上进行组件放置。通过这些任务的训练,模型能够学习如何在不同的设计约束下有效地安排视觉元素,以实现既定的设计目的和审美要求。

在视觉丰富文档的创建过程中,设计元素的多样性和画布上的分布对于实现有效的视觉传达至关重要。为了保持原始文本设计的完整性,文本内容在实验设置中被转换成图像。布局规划任务涉及将这些设计组件,以图像序列的形式提供,例如其中 n 代表组件的数量,按照特定应用场景 a(如海报、Instagram帖子、书籍封面)和定义好的尺寸 w(宽度)和 ℎ(高度)进行排列。画布可能是空白的,或者有预定义的背景。

为了提供更适应性强的解决方案并增强用户体验,研究者采用了指令跟随的方式来处理视觉丰富的布局规划任务。模型除了接收设计组件的序列外,还会根据应用场景和画布尺寸接收详细的指令 I。模型的任务是预测每个组件的布局,并以结构化格式输出,包括CSS样式,如上、左、宽、高以及层级属性,后者管理可能重叠元素的堆叠顺序。

研究者提出的模型 DocLap 扩展了 mPLUG-Owl,这是一个集成了大型语言模型(LLM)、视觉编码器和视觉抽象器模块的多模态框架。它采用了 Llama-7b v1 作为大型语言模型,CLIP ViT-L/14 作为视觉编码器。视觉抽象器模块将 CLIP 的视觉特征转换为64个标记,与文本嵌入的维度相匹配,允许同时处理多个视觉输入。研究者扩展了 Llama v1 的词汇表,增加了0到128范围内的数值标记,并在进一步的指令调整中调整了这些扩展标记的嵌入。

 实验设置

研究者在两个视觉丰富文档的布局规划基准测试上进行了实验:Crello和PosterLayout。Crello数据集基于从在线服务收集的设计模板构建,挑战模型从空白画布开始组织所提供视觉组件的布局。而PosterLayout数据集则从带有背景图像的非空白画布开始,要求模型策略性地放置文本、标签和徽标。为了确保实验的公平性,验证示例被限制为不超过4个图像,这与提交时GPT-4V的输入约束一致。

本研究中使用的两个数据集Crello和PosterLayout在训练或验证任务中包含的示例数量

研究者的训练数据得到了Adobe Express设计模板的补充。具体到每个训练或验证任务的数据集示例数量,如表1所示。在预处理阶段,小于画布大小5%的组件被排除,所有模板都被调整大小以确保最长边不超过128像素。

为了评估所提出模型的性能,研究者将其与Crello上的CanvasVAE和FlexDM,以及PosterLayout上的DSGAN进行了比较。此外,还包括了GPT-4和GPT-4V的文本版本进行比较评估。对于这些文本版本的评估,视觉组件不直接提供,而是通过BLIP-2生成每个组件的文本描述。

对于Crello的评估,研究者测量了预测和实际边界框之间的平均交并比(mIoU),以及左、上、宽、高维度的准确性。准确性通过将预测值与真实值进行64-bin量化范围比较来量化,如果预测值落在与真实值相同的范围内,则得分为1,否则为0。在PosterLayout的评估中,研究者采用了内容感知度量标准,包括遮挡率(表示主要对象被设计元素遮挡的百分比)、效用率(反映设计组件覆盖非主要对象区域的程度)和不可读性(测量包含文本元素的区域的均匀性)。

结果

结果显示在模型间交并比(mIoU)和各方面(左、上、宽、高)的精度上,DocLap模型超过了少量GPT-4(V)模型,但与FlexDM相比仍有提升空间。

Crello数据集上自动评估的结果
PosterLayout数据集上的评估结果,其中"Occ."代表遮挡率,衡量的是设计元素遮挡主要对象的程度;"Uti."代表效用率,反映设计组件覆盖非主要对象区域的广度;"Rea."代表不可读性

表2展示了Crello数据集上的评估结果,包括mIoU和各个维度的准确性。表3则展示了PosterLayout数据集上的评估结果,其中包括遮挡率、效用率和不可读性等指标。 

(a)设计模板中视觉组件数量对模型mIoU的影响
(b)单个视觉组件的相对大小与模型预测与真实值的IoU之间的相关性

图3(a)揭示了所有列出的模型在只有一个组件的模板上展现出高mIoU。随着组件数量的增加,DocLap和GPT-4(V)的mIoU呈现下降趋势,这表明涉及更多视觉组件的更复杂场景可能对当前的指令跟随模型构成挑战。

图3(b)展示了单一视觉组件的相对大小与模型预测的IoU与真实值之间的线性相关性。这表明较小的视觉组件在布局规划中实现精确放置面临更大挑战。这些小组件,如标志、小文本框或装饰元素,在布局中具有一定的位置灵活性,允许多种有效的放置方式。

Crello上布局规划结果的定性比较,包括真实情况、本文提出的模型(Ours)、GPT4V以及FlexDM的结果
PosterLayout上布局规划结果的定性比较,同样包括真实情况、本文提出的模型(Ours)、GPT4V以及DS-GAN的结果

图4和图5分别展示了Crello和PosterLayout的布局规划结果示例。这些示例包括了真实情况、DocLap模型的输出、GPT4V模型的输出以及FlexDM和DS-GAN模型的输出。通过这些示例,研究者展示了不同模型在处理具有挑战性的设计任务时的表现。

通过定量和定性的结果分析,研究者揭示了其在简化设计流程和提升非专业设计者效率方面的显著潜力,同时也指出了在面对复杂设计任务时的局限性:尽管DocLap在简化设计过程和提高非专业用户的设计效率方面显示出潜力,但在处理更复杂的设计场景时,模型的性能有所下降。尽管如此,这项工作为设计自动化领域提供了宝贵的见解,并强调了开发更全面的评估体系的重要性。

论文链接:https://arxiv.org/abs/2404.15271

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/web/38486.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

0702_ARM6

练习: 中断实验 main.c #include "key.h" int main() {//初始化rcc gpiohal_key_rcc_gpio_init();//初始化extihal_key_exti_init();//初始化gichal_key_gic_init();while(1){}return 0; }key.c #include "key.h"//GPIOF初始化 void hal_key_…

Linux的一些杂项函数总结

getopt_long 解析命令行。 参考: C语言linux getopt_long()函数(命令行解析)(getopt、getopt_long_only)(短选项 -,长选项 --)(option结构体)(opt…

vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法)

本篇介绍一下使用 vue3-openlayers marker 光晕扩散(光环扩散)(postrender 事件和 render 方法) 1 需求 marker 光晕扩散(光环扩散) 2 分析 marker 光晕扩散(光环扩散)使用 post…

中级java每日一道面试题-2024年7月2日

题目: 请解释一下 Java 中的线程安全问题,并提供一些常见的解决方法。 答案: 线程安全问题是指在多线程环境下,多个线程同时访问共享资源时可能出现的数据不一致或错误的情况。这可能导致程序的不可预测性和错误的结果。 常见的…

徐州三线服务器租用的优势有哪些?

对于单线服务器与双线服务器来说,三线服务器是能够同时拥有电信、联通和移动三条线路的服务器,同时也被称为三线路由器或者是三线宽带路由器,有着三个独立的网卡和三个IP地址,使用户无论是通过哪些线路连接都能够进入服务器&#…

android.bp 静态库 依赖 动态库

在Android平台上,使用Android.bp文件来定义和构建Android静态库(.so文件)和动态库(.so文件)之间的依赖关系是很常见的。以下是一个简单的例子,展示了如何在Android.bp文件中定义一个静态库,它依…

SPI NAND、SD NAND和eMMC对比—MK米客方德

目录 1. 容量: 2.封装类型: 3.速度: 4.性能: 5.寿命: 6. 使用方式: 7. 其他优缺点: 8.常见应用场景: 1. 容量: SPI NAND通常提供从几百MB到几GB的存储容量。 SD NAND的容量覆盖范围比SPI NAND更广,从几GB到几十GB不等。 eMMC的容量范围更大&a…

代码随想录第41天|动态规划

322. 零钱兑换 dp[j] : 最小硬币数量, j 为金额(相当于背包空间)递推公式 : dp[j] min(dp[j - coins[i]] 1, dp[j])初始化: 需要一个最大值, 避免覆盖, dp[0] 0遍历顺序: 钱币有序无序不影响, 因为求解最小个数, 结果相同(先遍历物品后背包, 先背包后物品都可) class Solut…

【chatgpt】两层gcn提取最后一层节点输出特征,如何自定义简单数据集

文章目录 两层gcn,提取最后一层节点输出特征,10个节点,每个节点8个特征,连接关系随机生成(无全连接层)如何计算MSE 100个样本,并且使用批量大小为32进行训练第一个版本定义数据集出错&#xff0…

怎样在《语文世界》期刊上发表论文?

怎样在《语文世界》期刊上发表论文? 《语文世界》知网国家级 1.5-2版 2500字符左右 正常收25年4-6月版面 可加急24年内(初中,高中,中职,高职,大学均可,操作周期2个月左右) 《语文世…

【084】基于SpringBoot实现的家乡特色推荐系统

系统介绍 视频演示 点击查看演示视频 基于SpringBoot实现的家乡特色推荐系统主要采用SpringBootVue进行开发,系统整体分为管理员、用户两种角色,主要功能包括首页,个人中心,用户管理,文章分类管理,文章分…

C语言结构体深入解析【结构体嵌套结构体,结构体变量和指针,结构体和函数,计算结构体大小,结构体数组,结构体成员的访问,结构体与联合】

C语言结构体深入解析 目录 C语言结构体深入解析前言结构体的定义结构体在内存中的表示结构体变量初始化直接定义并初始化使用自己定义的结构体变量初始化新变量结构体数组初始化 结构体中嵌套结构体结构体成员访问点操作符(.)箭头操作符(->) 结构体变量和指针结构体指针定义…

TensorFlow代码逻辑 vs PyTorch代码逻辑

文章目录 一、TensorFlow(一)导入必要的库(二)加载MNIST数据集(三)数据预处理(四)构建神经网络模型(五)编译模型(六)训练模型&#xf…

@RequestMapping属性详解及案例演示

RequestMapping源码 Target({ElementType.TYPE, ElementType.METHOD}) Retention(RetentionPolicy.RUNTIME) Documented Mapping public interface RequestMapping {String name() default "";AliasFor("path")String[] value() default {};AliasFor(&quo…

智能写作与痕迹消除:AI在创意文案和论文去痕中的应用

作为一名AI爱好者,我积累了许多实用的AI生成工具。今天,我想分享一些我经常使用的工具,这些工具不仅能帮助提升工作效率,还能激发创意思维。 我们都知道,随着技术的进步,AI生成工具已经变得越来越智能&…

简单分享 for循环,从基础到高级

1. 基础篇:Hello, For Loop! 想象一下,你想给班上的每位同学发送“Hello!”,怎么办?那就是for循环啦, eg:首先有个名字的列表,for循环取出,分别打印 names ["Alice", …

Apache APISIX 介绍

Apache APISIX 是一个动态、实时、高性能的云原生API网关,属于Apache软件基金会旗下的项目。以下是对Apache APISIX的详细介绍: 一、基本概述 定义:Apache APISIX是一个提供丰富流量管理功能的云原生API网关。功能:包括负载均衡…

git出现Permission denied问题

Warning: Permanently added ‘icode.baidu.com,10.11.81.103’ (RSA) to the list of known hosts. Permission denied (baas,keyboard-interactive,publickey). fatal: Could not read from remote repository. Please make sure you have the correct access rights and the…

nodejs操作excel文件实例,读取sheets, 设置cell颜色

本代码是我帮客户做的兼职的实例,涉及用node读取excel文件,遍历sheets,给单元格设置颜色等操作,希望对大家接活有所帮助。 gen.js let dir"D:\\武汉烟厂\\山东区域\\备档资料\\销区零售终端APP维护清单\\走访档案\\2024年6月…

Spring之事务失效的场景

Spring事务失效的场景 异常捕获处理:自己处理了异常,没有抛出。解决:手动抛出抛出检查异常:配置rollbackFor属性为Excetion非public方法导致事务失效,改为public 1、异常捕获处理 示例: 张三1000元&#…