AI生图美学在淘宝的实践应用

36cccf4fe4ae88f966ea10537eb32a0c.gif

本文介绍了如何制定和应用美学标准来评估和改善人工智能生成的图像质量,特别是在电商领域的应用,主要分为制定美学标准、训练美学模型、应用美学模型、升级淘宝风格模型四个步骤。

58297cef8f97218c9d728d472d2d6508.png

美学的定义与分析

  1. 图像质量标准:现代设计框架下,定义的图像质量标准基本是统一的。侧重技能和技法的定义,也由此延伸出对图、画、照片、影像的质量评判,再此基础上对成图手段的特性会有所要求和侧重。

  2. 图像内容标准:意识形态下的表达好坏要求是广泛的,图像质量的标准会被打破,服务于内容表达的需要。业内通常由评论家或评委等权威人士进行定义和解读。

    8ee367fe7e4e032f9c909bf0b86b99bc.png

9f54a5f8456976359bbf0f61f1b37d16.png

美学项目的目标

  1. 第一步-制定美学标准:制定AI生图标准与AI风格标准,联合中国美院与教授一起共研。突出专业性、针对性、客观性、权威性。

  2. 第二步-训练美学模型:基于AI美学标准培育美学判定模型,使机器能自动判定打分。

  3. 第三步-应用美学模型:基于美学模型能力指导淘宝AI生图模型调优升级。

  4. 第四步-升级淘宝风格模型:基于风格标准建立淘宝风格模型库,使商家具备丰富多样的风格模型可供选择。打造淘宝特色风格模型。

    4501ad3ffdacf414e2ee1e09360f0fcd.png

aea38def737f436dcaa8ecdc1544f16f.png

第一步:制定美学标准

基于「图像」的构成要素进行准则框架的定义,同时侧重「AI生成的特性」构建美学的标准:

图像构成:物形/环境/构图/光影/质感

AI生成特性:元素真实性&场景合理性

AI美学标准:5项准则,19项标准

619bde6d881bd70fc5bd9ae3142fe296.png

b70162ba0d21711bd5c2c6336ed263cb.png

051f98cde22a25bbbc6df0bb8a9fa513.jpeg

第二步:训练美学模型

  1. 美学模型目标:机器对图片自动打分判定的准确率提升。

  2. 准确率:相同图片进行美学AI打分与人工打分,取人与机器分数的重叠率。

  沉浸式体验

a24874a0c7f9862b78b253f971580424.png

我们的AI美学评价模型采用多模态美学预训练与多任务微调学习方式。这样做的优点如下:

  1. 我们的模型参数较少,可快速训练迭代,推理速度快,可快速筛选高美学图像,也可测评不同生成模型的生成效果,减少人工标注与审核成本;

  2. 相比于只输出美学分的模型,我们模型可以输出生成图像异常属性,可解释性较高;

  3. 我们的模型输出的异常属性既可以作为生图修复的前置判别器,也可以为异常生成图像打标优化生成模型;

  训练过程

基于美学标准制定评分规范,建立5分制的评分规则,由设计师进行打标沉淀优质AI训练数据:

  1. 制定评分规则:用于AI生图的评分规范(5档),以及用于原图筛选的评分规则(3档)。

    42f7b6b8fe13e8ab283d991be62fbd20.jpeg

  2. 人模图原图美学评价能力:根据对人模、环境、构图、光影、质感等图像品质的偏好,训练专门的人模图原图美学模型,用于美学分层。可过滤的低美学类型包括图像模糊、白边图或贴图,人面部不完整或裁切,人体被遮挡多,背景差或者整体美感差等。

  3. AIGC生图美学评价能力:我们的AIGC生图美学评价主要针对于含有人物的生图,从关注画面合理性与关注画面融合度两大方面出发,基于5大准则、19项标准要求,制定评分规则,同时针对生图异常属性进行标注。目前我们的模型已支持的异常属性包括人与背景融合度异常(人物悬空、背景质感差等)、手部异常、面部异常、肢体异常、其他异常等,输出的美学分范围1到5分。

    6e2e0771d1b6060933a22728c73ba3f1.png

图:AIGC生图美学评价预测的不同美学分数的图片

合理训练:人与机器多轮匹配校验,保证数据优质。

  1. 1轮打分校验: 取3人平均分来累积数据,保障打分客观。有分差部分重新解读差异具体呈现的问题点。再进行校验重打。确保不同人对准则的解读能保持理解一致和稳定(5分制度)。

  2. 2轮AI打分校验:取3人平均分与机器进行校对,有分差部分重新解读差异具体呈现的问题点,明确是人的问题还是机器的问题,确保两者能逐步一致,保障机器理解的准确性。(有初版AI判定模型后开始进行)。

    bbea6a6165d476e1dc8130df61339dcc.png

技术框架

  1. AIGC生图美学评价:根据设计师定义的5分美学准则,映射到五大质量等级。同时,我们对生成数据进行归纳分析,总结出五大属性,正常、人与背景融合度异常、手部异常、面部崩坏、躯体异常、其他异常。质量等级与属性原因组合形成美学评价提示词,作为多模态预训练模型的输入,损失函数采用美学分回归损失与属性原因多标签分类损失。

  2. 人模图原图美学评价:CLIP在美学评价上对图像质量、色彩、光照、构图、抽象概念等都具有很好的good/bad分类的zero-shot能力。因此,在预训练阶段,我们通过蒸馏CLIP的image encoder,提升backbone的美学表征能力。微调阶段使用提升后的backbone预测归一化后的美学评分。损失函数采用由L1损失和二分类交叉熵损失的加权,来提高模型的性能和鲁棒性。模型训练完成后,通过选取不同的阈值,能分层出不同美感级别的人模图片。


  测试阶段 

基于测试情况,分析当前机器问题或者人的问题,可持续调优模型的准确率。在这个过程中不断进化调优。

  1. 调优通用性:在千牛平台上测试淘宝内部的【千牛智能模型】与淘宝外部第三方的模型。同类型的人模评测可兼容,但发现有较大的浮动。通过抓取具体图片问题时发现,上传的原图质量会对于准确率有影响。为保障公平需要制定测试图集的标准。

  2. 机器打分的真实性测试:准确率会每周产生一定的上下浮动,基于模型情况进行标准测试集的建设。运用1200张标准测试集进行AI与人工打分(考虑原图难易情况会对AI判断造成影响,测试集分为简单、中等、困难三个等级,占比1:1:1)。

  3. 机器打分的严谨性测试:调优后的打分模型,会对新全新生成的图片进行自动打分,并和人的打分进行比对。

    2eb172e87297f52736253846a71b1424.png

411acaab6c0b434abb6c336b3e379ecd.jpeg

第三步:应用美学模型

目标:运用美学模型,提升淘宝AI大模型的良图率。

d2605456b65c7e826f4f6f060bfe3269.png

  美学模型1.0版本-应用AI生图评测能力:
  1. 目标:通过美学模型评测淘宝生成模型,对图片评分与画面问题的判定,对判定的图片问题进行修复。

  2. 判定能力:可针对图片进行(1-5分)打分,筛选良图与差图,指导模型后续的优化建议。

  3. 识别能力:目前可反馈5个关键画面属性。(1. 手部异常。2. 人与背景不融合。3. 脸部异常。4. 身体异常。5. 其他)。

  4. 修复能力:AIGC生成人物时画好的手一直是难点,人的手部自由度高且姿态复杂多变、图中占比小且细节多,导致画手的成功率不高。特别地,在实际业务中,由于用户上传的图片手部细节不明显或者手中拿着物品等复杂场景,在进行换模特换背景时,生成模型往往不能学到手部的准确细节特征导致画出不好的手。我们探索全新的手部修复技术方案。由 AI美学评价模型判断生成异常的手,对异常的手,利用3D手部状态重建模型保持正确的手指数量与手的形状,同时能够自适应生成图像中所需的手势。基于我们内部基底模型,融合Text Embedding,根据重建后的手部姿态重新绘制正常的手。经过反复调试参数和场景适配,我们的手部修复方案在业务数据上测试,修复成功率超过50%,可大幅度提高整体的生图良图率。手部修复的case如下:

aadc9cab63345a656ea402feb11f88e2.png

59b9d1771a0aab191fafe095c7feeed4.png

  美学模型2.0版本-应用原图评测能力
  1. 目标:调优淘宝基地模型,目前有混杂的原图数据集,数据集质量参差不齐,需要进行有效的筛选优化。

  2. 背景:目前原图数据集来源核心是两部分:视觉中国和淘宝模特图。
    视觉中国的摄影图核心是供给给新闻稿做新闻配图,因此大量的图片为了营造故事性对人物和场景有独特的表达。淘宝模特图商家已经做了后期处理,有些诸如模特的处理已经比较夸张。

    da710b8e20f8f480c81e5039dbcaea1d.png

  3. 筛选优质原图:通过原图判定模型,筛选优质摄影图,调优自研模型等数据集效果。提升生图的良图率。(如多人混乱、背景混乱,场景融合感等效果可提升)。
    收集专业摄影原图:目前通过设计团队搜集优质的摄影模特图。

  4. 1.0版本的AI美学评价模型影响生成模型,使生成模型自适应对齐人类偏好:AI美学评价可用于指导基于扩散的生成模型,不仅指导生成模型要生成高美学图像,也需要减少生成低美学图像的概率。为了解决这个问题,我们利用AI美学评价模型在低美学异常生成图像加上异常属性标签,增强模型学习异常生成图像概念的能力,可以在推理阶段避免。

afb4d5d4e709558e51639d0bf984e3c8.jpeg

第四步:升级淘宝风格模型

目标:打造淘宝特色风格模型。

风格标准的归纳:风格框架已经设定完成,内容量较大,将联动校企合作研究生,根据我们的要求逐步填充风格内容。

  风格的背景情况
  1. 目前风格选择的丰富性不足,生图的场景和人物集中在特定的几个类型上。原先对于风格的设定采用穷举的方式。如背景生成的场景基本上是泳池、花园、商场、海滩、森林、雪山。

  2. 因为原图本身的来源关系,图片的地域场景特色基本是西式。诸如东南亚的海滩、欧式花园、美式商场、美式泳池、北欧雪山。

  3. 因为采用穷举的方式,导致工具的选择项过多,体验比较复杂,商家使用过程中会选择困难,采用不断尝试的方式。

  风格的框架设定
  1. 对应美学标准的五大原则。进行细分的穷举,作为组合因子。

  2. 风格类型分为平台品牌风格、趋势热点风格、经典艺术风格三类。

  3. 基于风格趋向进行因子组合。形成风格的多元组合。

d34acdcd4ad8d4f27c6df48985b4df1c.png

  风格标准的运用

基于前台AI产品进行风格应用。通过用户使用数据反馈,进行风格的排序与汰换。逐步累积商家需要的风格。

b60c891015b7c61cb214fa35b161d04d.png

  后续计划
  1. 美学标准:发布淘宝AI美学标准,联动中国美术学院完成。

  2. 风格标准:风格化标准完善,建立淘宝独有的风格体系。同时在产品侧进行测试。

  3. 产品能力:发布 AI paas产品能力,联动千牛产品团队部署上线,提供给集团相关自研AI与第三方AI进行服务,也同步提升兼容性。

¤ 拓展阅读 ¤

3DXR技术 | 终端技术 | 音视频技术

服务端技术 | 技术质量 | 数据算法

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/3519.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

黑马-设计模式-笔记(未完)

一、基础 UML类图 可见性: public- private#protected 表示方式:属性:可见性 名称:类型[默认值]方法:可见性 名称(参数)[:返回类型] 关系:关联关系:实线,引用关系,类属性里有另一个…

Pycharm/Dataspell中使用jupyter导入ros humble包

配置ros humble对应python包路径文件 首先在~/.local/lib/python3.10/site-packages目录下新建一个.pth文件,如下图所示。 将对应的ros humble的python包的路径配置在上述文件中,一行放置一个路径,对应的路径如下图所示。 完成上述操作后…

苹果电脑装虚拟机好用吗 苹果电脑装虚拟机要钱吗 Parallels对mac的损害 Parallels占用多大空间 PD19

在当今数字化的时代,人们对电脑系统跨设备互联的需求越来越高。作为拥有广泛用户群体的苹果电脑,许多用户会有在Mac系统中运行其他操作系统的需求。在这种情况下,安装虚拟机是一个较好的解决方案。那么接下来就给大家介绍苹果电脑装虚拟机好用…

【HarmonyOS4学习笔记】《HarmonyOS4+NEXT星河版入门到企业级实战教程》课程学习笔记(三)

课程地址: 黑马程序员HarmonyOS4NEXT星河版入门到企业级实战教程,一套精通鸿蒙应用开发 (本篇笔记对应课程第 4 - 6节) P5《04.快速入门》 本节来实现一个 HelloWorld 效果: 1、打开编辑器,选择新建项目&…

SpringBoot War打包部署

修改打包方式 <packaging>war</packaging>修改 Servlet 容器的 scope <dependency><groupId>org.springframework.boot</groupId><artifactId>spring-boot-starter-tomcat</artifactId><scope>provided</scope></d…

Mybatis入门(入门案例,IDEA配置SQL提示,JDBC介绍,lombok介绍)

目录 一、Mybatis入门案例介绍整体步骤创建SpringBoot项目pom依赖准备测试数据新建实体类配置Mybatis数据库连接信息新建接口类,编写SQL代码单元测试 二、IDEA配置SQL提示三、JDBC是什么案例JDBC和Mybatis对比 四、数据库连接池介绍如何实现一个数据库连接池切换数据库连接池 五…

Oracle导出导入dmp等文件类型的多表数据的常用方法、遇见的常见问题和解决办法(exp无效sql???)

使用PLSQL执行导出表数据的时候有两种方法 1、使用Oracle命令【imp--exp】【impdp--expdp】 但是如果你的本机没有安装有Oracle数据库&#xff0c;使用的instant client远程连接服务器上的Oracle数据库时候&#xff0c;你没有Oracle数据库带有的exp.exe、imp.exe等扩展文件&a…

Android kotlin 协程异步async与await介绍与使用

一、介绍 在kotlin语言中&#xff0c;协程是一个处理耗时的操作&#xff0c;但是很多人都知道同步和异步&#xff0c;但是不知道该如何正确的使用&#xff0c;如果处理不好&#xff0c;看似异步&#xff0c;其实在runBloacking模块中使用的结果是同步的。 针对如何同步和如何异…

day04 51单片机-矩阵按键

1 矩阵按键 1.1 需求描述 本案例实现以下功能&#xff1a;按下矩阵按键SW5到SW20&#xff0c;数码管会显示对应的按键编号。 1.2 硬件设计 1.2.1 硬件原理图 1.2.2 矩阵按键原理 1.3软件设计 1&#xff09;Int_MatrixKeyboard.h 在项目的Int目录下创建Int_MatrixKeyboard…

Acer宏碁掠夺者战斧300笔记本电脑PH315-52工厂模式原装Win10系统安装包 恢复出厂开箱状态 带恢复重置

宏碁掠夺者PH315-52原厂Windows10工厂包镜像下载&#xff0c;预装oem系统 链接&#xff1a;https://pan.baidu.com/s/1grmJzz6nW1GOaImY_ymXGw?pwdi286 提取码&#xff1a;i286 原厂W10系统自带所有驱动、PredatorSense风扇键盘控制中心、Office办公软件、出厂主题壁纸、系统…

C语言简易类json格式解析

在使用MQTT时&#xff0c;获取的数据基本上都是json格式的&#xff0c;虽然C语言也可以添加第三方的解析库&#xff0c;但有些资源少的单片机用着还是挺吃力的&#xff0c;所以自己简单写了一个从json格式中获取数据的&#xff0c;说白了就是一个字符串查找。就比如下面这一段 …

Scrapy 爬虫教程:从原理到实战

Scrapy 爬虫教程&#xff1a;从原理到实战 一、Scrapy框架简介 Scrapy是一个由Python开发的高效网络爬虫框架&#xff0c;用于从网站上抓取数据并提取结构化信息。它采用异步IO处理请求&#xff0c;能够同时发送多个请求&#xff0c;极大地提高了爬虫效率。 二、Scrapy运行原…

Elasticsearch单机部署(Linux)

1. 准备环境 本文中Elasticsearch版本为7.12.0&#xff0c;JDK版本为1.8.0&#xff0c;Linux环境部署。 扩展&#xff1a; &#xff08;1&#xff09;查看Elasticsearch对应的常用的jdk版本如下&#xff1a;&#xff08;详情可看官网的支持一览表&#xff09; Elasticsearch a…

机器学习 -- 分类问题

场景 探讨了一个回归任务——预测住房价格&#xff0c;用到了线性回归、决策树以及随机森林等各种算法。本次中我们将把注意力转向分类系统。我们曾经对MNIST进行了分类任务&#xff0c;这次我们重新回到这里&#xff0c;细致的再来一次。 开始 获取数据 Scikit-Learn提供了…

ELK 日志分析系统(二)

一、ELK Kibana 部署 1.1 安装Kibana软件包 #上传软件包 kibana-5.5.1-x86_64.rpm 到/opt目录 cd /opt rpm -ivh kibana-5.5.1-x86_64.rpm 1.2 设置 Kibana 的主配置文件 vim /etc/kibana/kibana.yml --2--取消注释&#xff0c;Kiabana 服务的默认监听端口为5601 server.po…

正点原子[第二期]Linux之ARM(MX6U)裸机篇学习笔记-6

前言&#xff1a; 本文是根据哔哩哔哩网站上“正点原子[第二期]Linux之ARM&#xff08;MX6U&#xff09;裸机篇”视频的学习笔记&#xff0c;在这里会记录下正点原子 I.MX6ULL 开发板的配套视频教程所作的实验和学习笔记内容。本文大量引用了正点原子教学视频和链接中的内容。…

一分钟教你学浪视频怎么存到网盘里面#小浪助手

只需要将学浪视频下载下来,然后利用网盘的上传功能,就能将学浪视频存到网盘里面 那么怎么下载学浪视频呢?其实这里可以借助一个工具:小浪助手 小浪助手我已经打包好了,有需要的自己取一下 学浪下载器链接&#xff1a;https://pan.baidu.com/s/1nyjXc88BWbF8jnfQWUGLZQ?pwd…

Python爱心代码

爱心效果图&#xff1a; 完整代码&#xff1a; import random from math import sin, cos, pi, log from tkinter import *# 定义画布尺寸和颜色 CANVAS_WIDTH 640 CANVAS_HEIGHT 480 CANVAS_CENTER_X CANVAS_WIDTH / 2 CANVAS_CENTER_Y CANVAS_HEIGHT / 2 IMAGE_ENLARG…

Pandabuy代采模式独立站打造攻略,轻松开启全球电商新篇章!

Pandabuy是一个知名的代采平台&#xff0c;老外想要购买1688的物美价廉的商品&#xff0c;但是受限于物流和支付&#xff0c;老外没有大陆支付宝&#xff0c;另外1688不支持海外物流。作为跨境出口的代采平台&#xff0c;pandabuy解决了这个问题 通过对接1688的搜索api&#xf…

今日早报 每日精选15条新闻简报 每天一分钟 知晓天下事 4月26日,星期五

每天一分钟&#xff0c;知晓天下事&#xff01; 2024年4月26日 星期五 农历三月十八 1、 神舟十八号载人飞船发射取得圆满成功&#xff0c;3名航天员与神舟十七号乘组实现“太空会师”。 2、 工信部征求意见&#xff1a;电动自行车拟禁用车载充电器。 3、 两部门&#xff1a;调…