【深度学习】【Lora训练2】StabelDiffusion,Lora训练过程,秋叶包,Linux,SDXL Lora训练

文章目录

  • 一、如何为图片打标
    • 1.1. 打标工具
      • 1.1.1. 秋叶中使用的WD1.4
      • 1.1.2. 使用BLIP2
      • 1.1.3. 用哪一种
  • 二、 Lora训练数据的要求
    • 2.1 图片要求
    • 2.2 图片的打标要求
  • 三、 Lora的其他问题
    • qa1
    • qa2
    • qa3
    • qa4
    • qa5
  • 四、 对图片的处理细节
    • 4.1. 图片尺寸问题
    • 4.2. 图片内容选取问题
    • 4.3. 什么是一张合适的图?
      • 4.3.1. 解决水印问题——inpainting
      • 4.3.2. 解决边界的问题——裁剪
      • 4.3.3. 解决主体多的问题——删除
      • 4.3.4. 解决审美的问题——删除
  • 问询、帮助

上篇文谈论了一些基础使用,接下来实验一些更细节的问题。

文章链接:

kohya_ss:

https://qq742971636.blog.csdn.net/article/details/138135484

秋叶包基础:

https://qq742971636.blog.csdn.net/article/details/138195344

一、如何为图片打标

1.1. 打标工具

1.1.1. 秋叶中使用的WD1.4

一种词汇打标器,原始训练数据应该是来源于Danbooru 图像, Danbooru 就类似于分类,表述图中有的元素单词,这种倾向于是一个一个的单词(tag)来打标图片。

在这里插入图片描述
图片打标结果展示如下,一行是一个图片的打标:

solo, monochrome, 1girl, portrait, greyscale, short hair, realistic, traditional media, lips, smileno humans, monochrome, greyscale, traditional media

1.1.2. 使用BLIP2

BLIP2,这个在kohya_ss中有可视化界面,或者使用程序:

https://huggingface.co/Salesforce/blip2-opt-2.7b

BLIP2的提示语更倾向于是一个短语短句子。

1.1.3. 用哪一种

都差不多,最终都会被CLIP转为嵌入量,只要打标准确达意就好。

二、 Lora训练数据的要求

参考资料:https://zhuanlan.zhihu.com/p/676456908

2.1 图片要求

数量我觉得质量越好、数量越多肯定是最好的。

分辨率适中,勿收集极小图像。

数据集需要统一的主题和风格的内容,图片不宜有复杂背景以及其他无关人物。

图像人物尽量多角度,多表情,多姿势。

凸显面部的图像数量比例稍微大点,全身照的图片数量比例稍微小点。

堆糖:https://www.duitang.com
花瓣:https://huaban.com
pinterest:https://www.pinterest.com

通常,准备数百张图像是理想的(图像数量太少会导致类别图像无法被归纳,特征也不会被学习)。

如果要使用生成的图像,生成图像的大小通常应与训练分辨率(更准确地说,是bucket的分辨率,见下文)相匹配。

2.2 图片的打标要求

如果想要用文字自由控制头发是什么颜色,那么tag中对头发颜色的描述就可以保留。

如果是某个特定的人物ID或者画风,不想要文字控制,想要Lora直接就有效果,那么就需要删除这种描述文字。

在这里插入图片描述

三、 Lora的其他问题

qa1

为什么lora有附加提示词?:如之前的概念,附加提示词是为了更好触发Lora功能,如果在后续Lora使用中,加上这个附加提示词去生图,那么就嘎嘎被控出Lora风格,附加提示词最好整点与众不同的词。

qa2

lora训练多少轮合适?:10轮,20轮。看到还有200轮的,loss收敛就好。

qa3

Lora模型的不同之处:网络结构(LoRA/LoCon/LoHa/DyLoRA)?:详细看秋叶包的解释。

qa4

Lora的正则化数据,这种训练数据可以用模型生成或者自己找,比如画风Lora训练中,只想生成卡通人物,那么正则数据就可以选真实人物。

qa5

你为什么会觉得BLIP2的标记更好?

WD1.4的打标是一些tag词,比如我训练的素描风格数据,WD1.4给的tag词里有很多相同的词,比如“monochrome, greyscale, traditional media ”,这些词导致了在后续我使用Lora生图过程中,我需要加这种描述词才能很好地触发Lora风格。而BLIP2的标记只会描述物体内容,就不至于出现这种问题。

只能说,各有长处,每个标记txt文件或许要审查一下更好,偷懒地话用BLIP2或许可以更懒一点。

在这里插入图片描述

四、 对图片的处理细节

比如我要训练SDXL的Lora,这种Lora可以将图片改为素描风格,我需要什么样的图片?我应该如何处理图片?哪种图片适合?

4.1. 图片尺寸问题

我需要的是高清图,要有足够的细节。SDXL本身是1024*1024的适应,所以我找的图不能太小,最小也应该有个768的大小。这一点上,可以借助一些超分算法和美化算法来调整图片尺寸,让图片有足够多的细节。故图片最小边大于512就足够好了,不用苛刻太多。

4.2. 图片内容选取问题

基本概念是,模型学习的是一种映射关系,对于没见过怎么转换的,迁移能力不是很强。比如我训练了中国墨水化的Lora,都是用的一些风景图片训练的,那么用这个Lora去生成人物是很垃圾的。模型见过类似的图片映射,才能聪明起来,这是训练的核心。

基于此,如果我想要的是画风Lora,那么我搞的数据应该尽量是各种各样的数据都来点;如果我想要的是某个人物的样貌Lora,那么最好搞的数据就全是这个人物的图片。

在素描风格中,我找了一些乱七八糟的图,我希望Lora学习到的是一种笔触风格:
在这里插入图片描述

4.3. 什么是一张合适的图?

基本原则是,凡是带有干扰的图,我都不会要,我都会修改。我要纯粹表达Lora的意向,图片要纯粹

4.3.1. 解决水印问题——inpainting

下图的红圈内都是不想要的图片内容,需要想办法去除:

在这里插入图片描述
win10企业版本的图片查看器可以一定程度修改这种情况:

在这里插入图片描述
可以看到擦出了很多,有人问下图还有擦不掉的怎么做,当然是直接把这张图扔垃圾桶里。

在这里插入图片描述

4.3.2. 解决边界的问题——裁剪

人物或者画风的Lora训练都需要遵循“图片要纯粹”。

比如画风中这张图的边界其实是一个很差的点,我们绝对不想要Lora指导生图出来的图中有这种难看的边界:

在这里插入图片描述
裁剪掉即可:

在这里插入图片描述

人物Lora训练也有类似的情况,比如这张图,如果是人物Lora,就需要裁剪这张图,因为要突出纯粹的核心内容。

在这里插入图片描述

裁剪后是这样的图才行,甚至不想绘制手,也可以把下半身裁剪一些,毕竟Lora那么傻,这么复杂的腿部姿势构图它可能学不会。

在这里插入图片描述

4.3.3. 解决主体多的问题——删除

训练素描风格,下面这个图不合适,主体太多,提示词tag很难形成映射。类似地人物Lora也是一样的道理,不要乱七八糟的无关人物干扰最好,否则就删除那张图。
在这里插入图片描述

4.3.4. 解决审美的问题——删除

训练素描风格,下面这个图不合适,需要删除。原因在于太丑,我不希望Lora指导绘图绘制出来这么拙略的出图。Lora只是一个小孩子,学映射没那么聪明,这种干扰不要当训练数据给进去,不然Lora学不好。

人物Lora也是类似地,人物如果丑,角度不好,就尽量不要用来当训练数据。

在这里插入图片描述

问询、帮助

你如果需要帮助,请看这里:

https://docs.qq.com/sheet/DUEdqZ2lmbmR6UVdU?tab=BB08J2

本文来自互联网用户投稿,该文观点仅代表作者本人,不代表本站立场。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如若转载,请注明出处:http://www.mzph.cn/pingmian/9304.shtml

如若内容造成侵权/违法违规/事实不符,请联系多彩编程网进行投诉反馈email:809451989@qq.com,一经查实,立即删除!

相关文章

2024年3月份宠物行业线上市场数据分析:市场呈现出精细化、品质化趋势

近些年来,养宠物的家庭越来越多,宠物经济也逐渐衍生开来。宠物经济主要是围绕宠物产生的一整条产业链,包括宠物食品、宠物家居、宠物美容和最近火起来的宠物保险等多个领域。目前随着居民人均收入的提高,宠物市场也得到稳步发展。…

【Qt 学习笔记】Qt常用控件 | 输入类控件 | Slider的使用及说明

博客主页:Duck Bro 博客主页系列专栏:Qt 专栏关注博主,后期持续更新系列文章如果有错误感谢请大家批评指出,及时修改感谢大家点赞👍收藏⭐评论✍ Qt常用控件 | 输入类控件 | Slider的使用及说明 文章编号:…

Java | Leetcode Java题解之第80题删除有序数组中的重复项II

题目&#xff1a; 题解&#xff1a; class Solution {public int removeDuplicates(int[] nums) {int n nums.length;if (n < 2) {return n;}int slow 2, fast 2;while (fast < n) {if (nums[slow - 2] ! nums[fast]) {nums[slow] nums[fast];slow;}fast;}return sl…

查看pytorch与cuda对应版本

查看cuda版本 打开cmd,输入nvidia-smi&#xff0c;即可可以看到cuda的版本了 2. pytorch与cuda版本对应关系 可以参考这篇文章&#xff0c;写的非常详细&#xff1a;https://blog.csdn.net/FL1768317420/article/details/134769203

5. 分布式链路追踪TracingFilter改造增强设计

前言 在4. 分布式链路追踪客户端工具包Starter设计一文中&#xff0c;我们实现了基础的Starter包&#xff0c;里面提供了我们自己定义的Servlet过滤器和RestTemplate拦截器&#xff0c;其中Servlet过滤器叫做HoneyTracingFilter&#xff0c;仅提供了提取SpanContext&#xff0…

WebRTC 客户端状态机

WebRTC 客户端状态机 WebRTC 客户端状态机客户端状态机客户端加入流程图客户端离开流程图端到端连接的基本流程 WebRTC 客户端状态机 客户端状态机 首先我们来看一下客户端的一个状态机&#xff0c;客户端与服务器直接通过信令的一个交互之后自然而然的形成一个状态机&#x…

读天才与算法:人脑与AI的数学思维笔记23_人工智能讲故事

1. 伟大的自动语法分析器 1.1. 思维呆板机械的阿道夫奈普&#xff08;Adolphe Knipe&#xff09;一直想成为一名作家&#xff0c;可是他写出来的东西既迂腐又无趣 1.2. 后来&#xff0c;灵光乍现&#xff0c;他得到了一个启示&#xff1a;语言遵循语法规则&#xff0c;这规则…

【连连国际注册_登录安全分析报告】

连连国际注册/登录安全分析报告 前言 由于网站注册入口容易被黑客攻击&#xff0c;存在如下安全问题&#xff1a; 暴力破解密码&#xff0c;造成用户信息泄露短信盗刷的安全问题&#xff0c;影响业务及导致用户投诉带来经济损失&#xff0c;尤其是后付费客户&#xff0c;风险巨…

OPC :快速上手

本系列为OPC技术的快速上以及持续研究和技术实战专栏&#xff0c;将不定期更新。 本章节提供OPC系列技术博文的快速导航。 《OPC服务器简介和入门介绍》 《物联网平台如何为OPC服务器创造新生命力》 《OPC服务器开发之WtOPCSvr——开发文档&#xff08;1&#xff09;》 《OPC服…

何为基差?股指期货的升水和贴水又怎么理解?

基差是一个金融术语&#xff0c;它指的是现货价格和期货价格之间的差额。在股指期货市场中&#xff0c;现货就是指实际的股票指数&#xff0c;而期货则是基于这个指数未来某个时间点的价格预期。基差可以是正的或负的&#xff0c;具体取决于期货价格是高于还是低于现货价格。 1…

每日一题7:Pandas-重命名列

一、每日一题 编写一个解决方案&#xff0c;按以下方式重命名列&#xff1a; id 重命名为 student_idfirst 重命名为 first_namelast 重命名为 last_nameage 重命名为 age_in_years 返回结果格式如下示例所示。 解答&#xff1a; import pandas as pddef renameColumns(studen…

《2024年AI安全报告》:AIML工具使用量飙升594.82%

人工智能&#xff08;AI&#xff09;不仅仅是一种开拓性的创新技术&#xff0c;甚至已经成为一种常态&#xff0c;企业正在工程、IT营销、财务、客户服务等领域迅速采用AI和机器学习&#xff08;ML&#xff09;工具。但与此同时&#xff0c;他们必须平衡AI工具带来的诸多风险&a…

ESP32引脚入门指南(三):从理论到实践(Touch Pin)

引言 ESP32作为物联网领域的明星微控制器&#xff0c;不仅以其强大的网络通信能力著称&#xff0c;还内置了丰富的外设资源&#xff0c;其中就包括电容式触摸传感&#xff08;Capacitive Touch&#xff09;功能。本文旨在深入浅出地介绍ESP32的Touch引脚&#xff0c;带你了解其…

15-LINUX--线程的创建与同步

一.线程 1.线程的概念 线程是进程内部的一条执行序列或执行路径&#xff0c;一个进程可以包含多条线程。 2.线程的三种实现方式 ◼ 内核级线程&#xff1a;由内核创建&#xff0c;创建开销大&#xff0c;内核能感知到线程的存在 ◼ 用户级线程&#xff1a;线程的创建有用户空…

刷题第3天(简单题):LeetCode206--反转链表--双指针法

LeetCode206&#xff1a;给你单链表的头节点 head &#xff0c;请你反转链表&#xff0c;并返回反转后的链表。 示例 1&#xff1a; 输入&#xff1a;head [1,2,3,4,5] 输出&#xff1a;[5,4,3,2,1]示例 2&#xff1a; 输入&#xff1a;head [1,2] 输出&#xff1a;[2,1]示例…

五一超级课堂---Llama3-Tutorial(Llama 3 超级课堂)---第三节llama 3图片理解能力微调(xtuner+llava版)

课程文档&#xff1a; https://github.com/SmartFlowAI/Llama3-Tutorial 课程视频&#xff1a; https://space.bilibili.com/3546636263360696/channel/collectiondetail?sid2892740&spm_id_from333.788.0.0 操作平台&#xff1a; https://studio.intern-ai.org.cn/consol…

自动镭雕机价格是多少?

自动镭雕机是一种高精度、高效率的激光雕刻设备&#xff0c;广泛应用于手机、电脑、玻璃等产品表面的图案雕刻。那么&#xff0c;自动镭雕机多少钱一台呢&#xff1f;本文将为您详细解析各种因素对自动镭雕机价格的影响。 一、影响自动镭雕机价格的因素 1. 品牌和质量 自动镭…

xiuno(修罗)知乎模板二开优化魔板仿网盘资源社–模板加全套插件

使用说明 以服务器为例搭建教程 ①先安装 PHP7.1 版本 再安装数据库 Mysql ②解压文件&#xff1a;xiunobbs_4.0.4&#xff08;解压到根目录&#xff09;.zip ③解压②完成后找到【plugin】文件夹再解压&#xff1a;plugin(解压到 plugin 文件夹).zip 设置伪静态代码在上面&am…

知从科技应邀参加恩智浦技术日巡回研讨会郑州站汽车电子专场

4月18日&#xff0c;恩智浦技术日巡回研讨会的首个汽车电子专场在郑州成功举办。此次研讨会汇聚了众多行业专家&#xff0c;聚焦前沿的赋能技术&#xff0c;共同探讨汽车电子架构、ADAS、汽车电气化、车载信息娱乐系统、UWB超宽带等热门应用。作为恩智浦合作伙伴&#xff0c;知…

【python量化交易】qteasy使用教程05——创建第一个自定义交易策略

创建第一个自定义交易策略 使用qteasy创建自定义交易策略开始前的准备工作本节的目标自定义策略的实现方法使用 qteasy 的 Strategy 策略类三种不同的自定义策略基类定义一个双均线择时交易策略定义策略运行时机定义策略需要的数据自定义交易策略的实现&#xff1a;realize()获…