在广告行业一个吸引人的视觉布局能够显著提升信息的传播效果。但对于非专业设计师来说,创建既美观又功能性强的布局常常是一项挑战。他们往往缺乏必要的设计技能、审美训练或资源来快速实现创意构想。传统的设计软件和在线工具虽然提供了一些模板和指导,但这些往往限制了设计的个性化和创新性,难以满足用户多样化和不断变化的设计需求。
本文旨在解决这一问题,介绍一种基于指令跟随模型的自动布局规划方法。这种方法利用最新的人工智能技术,特别是大模型(LLMs)的指令跟随能力,为用户提供一种新的、用户友好的设计工具。通过简单的指令输入,用户可以指导模型理解设计目的和画布尺寸,自动地将各种视觉元素(如文本、图片、标志等)排列组合,生成符合特定应用场景(如海报、书籍封面、宣传册等)的定制化布局。
方法
图2为三个布局推理任务的示例输入和输出。这些任务是模型训练的关键部分,旨在提高模型对布局指令的理解和执行能力。
(a) 和 (b) 的示例来自Crello数据集,由Yamaguchi在2021年提出。Crello数据集基于在线服务收集的设计模板,这些模板通常从一个空画布开始,要求模型能够组织所提供视觉组件的布局。这些示例展示了模型如何预测每个组件的边界框坐标,以确保它们不会遮挡主要对象。例如,一个设计模板可能包含文本组件或标志,模型需要预测这些组件在画布上的具体位置,同时考虑到它们之间的相互关系和视觉平衡。
(c) 的示例来自PosterLayout数据集,由Hsu等人在2023年提出。与Crello不同,PosterLayout数据集的画布不是从空开始,而是已经包含了背景图像,特别是针对海报的设计。在这种情况下,模型的任务是战略性地放置文本、标签和徽标等组件。这要求模型不仅要理解各个组件的视觉特性,还要考虑它们与背景图像的关系,以及如何在保持设计美观的同时传达必要的信息。
这些示例展示了模型在不同设计场景下的应用能力,包括从空白画布开始的布局规划和在有背景的画布上进行组件放置。通过这些任务的训练,模型能够学习如何在不同的设计约束下有效地安排视觉元素,以实现既定的设计目的和审美要求。
在视觉丰富文档的创建过程中,设计元素的多样性和画布上的分布对于实现有效的视觉传达至关重要。为了保持原始文本设计的完整性,文本内容在实验设置中被转换成图像。布局规划任务涉及将这些设计组件,以图像序列的形式提供,例如其中 n 代表组件的数量,按照特定应用场景 a(如海报、Instagram帖子、书籍封面)和定义好的尺寸 w(宽度)和 ℎ(高度)进行排列。画布可能是空白的,或者有预定义的背景。
为了提供更适应性强的解决方案并增强用户体验,研究者采用了指令跟随的方式来处理视觉丰富的布局规划任务。模型除了接收设计组件的序列外,还会根据应用场景和画布尺寸接收详细的指令 I。模型的任务是预测每个组件的布局,并以结构化格式输出,包括CSS样式,如上、左、宽、高以及层级属性,后者管理可能重叠元素的堆叠顺序。
研究者提出的模型 DocLap 扩展了 mPLUG-Owl,这是一个集成了大型语言模型(LLM)、视觉编码器和视觉抽象器模块的多模态框架。它采用了 Llama-7b v1 作为大型语言模型,CLIP ViT-L/14 作为视觉编码器。视觉抽象器模块将 CLIP 的视觉特征转换为64个标记,与文本嵌入的维度相匹配,允许同时处理多个视觉输入。研究者扩展了 Llama v1 的词汇表,增加了0到128范围内的数值标记,并在进一步的指令调整中调整了这些扩展标记的嵌入。
实验设置
研究者在两个视觉丰富文档的布局规划基准测试上进行了实验:Crello和PosterLayout。Crello数据集基于从在线服务收集的设计模板构建,挑战模型从空白画布开始组织所提供视觉组件的布局。而PosterLayout数据集则从带有背景图像的非空白画布开始,要求模型策略性地放置文本、标签和徽标。为了确保实验的公平性,验证示例被限制为不超过4个图像,这与提交时GPT-4V的输入约束一致。
研究者的训练数据得到了Adobe Express设计模板的补充。具体到每个训练或验证任务的数据集示例数量,如表1所示。在预处理阶段,小于画布大小5%的组件被排除,所有模板都被调整大小以确保最长边不超过128像素。
为了评估所提出模型的性能,研究者将其与Crello上的CanvasVAE和FlexDM,以及PosterLayout上的DSGAN进行了比较。此外,还包括了GPT-4和GPT-4V的文本版本进行比较评估。对于这些文本版本的评估,视觉组件不直接提供,而是通过BLIP-2生成每个组件的文本描述。
对于Crello的评估,研究者测量了预测和实际边界框之间的平均交并比(mIoU),以及左、上、宽、高维度的准确性。准确性通过将预测值与真实值进行64-bin量化范围比较来量化,如果预测值落在与真实值相同的范围内,则得分为1,否则为0。在PosterLayout的评估中,研究者采用了内容感知度量标准,包括遮挡率(表示主要对象被设计元素遮挡的百分比)、效用率(反映设计组件覆盖非主要对象区域的程度)和不可读性(测量包含文本元素的区域的均匀性)。
结果
结果显示在模型间交并比(mIoU)和各方面(左、上、宽、高)的精度上,DocLap模型超过了少量GPT-4(V)模型,但与FlexDM相比仍有提升空间。
表2展示了Crello数据集上的评估结果,包括mIoU和各个维度的准确性。表3则展示了PosterLayout数据集上的评估结果,其中包括遮挡率、效用率和不可读性等指标。
图3(a)揭示了所有列出的模型在只有一个组件的模板上展现出高mIoU。随着组件数量的增加,DocLap和GPT-4(V)的mIoU呈现下降趋势,这表明涉及更多视觉组件的更复杂场景可能对当前的指令跟随模型构成挑战。
图3(b)展示了单一视觉组件的相对大小与模型预测的IoU与真实值之间的线性相关性。这表明较小的视觉组件在布局规划中实现精确放置面临更大挑战。这些小组件,如标志、小文本框或装饰元素,在布局中具有一定的位置灵活性,允许多种有效的放置方式。
图4和图5分别展示了Crello和PosterLayout的布局规划结果示例。这些示例包括了真实情况、DocLap模型的输出、GPT4V模型的输出以及FlexDM和DS-GAN模型的输出。通过这些示例,研究者展示了不同模型在处理具有挑战性的设计任务时的表现。
通过定量和定性的结果分析,研究者揭示了其在简化设计流程和提升非专业设计者效率方面的显著潜力,同时也指出了在面对复杂设计任务时的局限性:尽管DocLap在简化设计过程和提高非专业用户的设计效率方面显示出潜力,但在处理更复杂的设计场景时,模型的性能有所下降。尽管如此,这项工作为设计自动化领域提供了宝贵的见解,并强调了开发更全面的评估体系的重要性。
论文链接:https://arxiv.org/abs/2404.15271